雖然當前展示的重點是機械臂而非完整的人形機器人,但其底層技術與下一代人形機器人所使用的技術是相同的。Google 表示,其 Gemini Robotics 模型旨在"輕鬆適應不同類型的機器人",目前已在 Apptronik 的人形機器人 Apollo 上進行測試。
"為了讓 AI 在物理世界中發揮實用價值併為人類提供説明,它們必須展現出'具身'推理能力 —— 即類似人類理解周圍世界並作出反應的能力,"DeepMind 機器人團隊負責人 Carolina Parada 在一份聲明中表示。
這次演示是來自 Google、Meta 等科技巨頭以及 Figure AI、Agility Robotics 等初創公司新一波人形機器人浪潮的一部分。這些機器人被定位為物流和家務的未來解決方案。除了飛行汽車之外,可能沒有哪項科幻技術能像機器人助手這樣長期吸引我們的想像力了 —— 它們終將把我們從洗碗和洗衣等瑣事中解放出來 (當然,這些故事有時也會讓我們感到恐懼)。如今,在先進 AI 模型的加持下,這些機械工人正從我們的想像中走出,開始邁入現實。
但在技術不斷進步的同時,一個根本性的問題仍然存在:我們是該為我們的世界構建機器人,還是該調整我們的空間以適應更簡單的機器?
人形機器人的製造者們推崇前者。他們認為,世界本就是為人類身體設計的,包括樓梯、與肩同高的架子,以及位於視線高度的重要物品。人形機器人支持者認為,這使得人類形態成為了旨在融入廚房等現有環境的機器的最合理設計。
他們正在與目前唯一成功的機器人展開艱難的競爭,這些機器人主要是倉庫中的非人形機器人,倉庫的貨架系統是為輪式揀選機器人設計的,或者是專門劃分給機器人的區域。這些專門設計的環境允許使用更簡單的機器人設計。
但人形機器人公司擁有一個他們認為能改變一切的強大新工具:像 Google 的 Gemini 和 OpenAI 的 GPT 這樣能理解和生成人類語言的 AI 系統。這項技術可以讓人們像與他人交談一樣簡單地與機器人對話 —— "疊那件衣服"或"把碗筷收起來" —— 無需專業程式設計或技術知識。更有前途的是,這些 AI 模型可能幫助機器人適應它們未經專門訓練的新情況,這可能解決機器人領域最持久的挑戰之一。
儘管有令人印象深刻的演示和諸多承諾,但當前的現實更為平淡。相比人類,機器人的動作仍然緩慢,在處理抓取時會改變形狀的精細或可變形物品時仍然困難重重。家庭中充滿不可預測的混亂,比如小孩四處奔跑、玩具散落一地,或是意外情況如在冰箱裡找到鑰匙 —— 這些在許多家庭中可能只是普通的周二場景 —— 仍然是遠超當前能力的未經測試場景。
這些問題並沒有阻止公司們嘗試。據報導,Meta 正在構建一個人形機器人平臺,旨在成為"機器人的 Android 系統"。已經在諸多專案中分身乏術的 Elon Musk 仍然抽出時間繼續發佈關於 Tesla 的 Optimus 人形機器人的消息。他最近在 X 平臺上宣佈,他的機器人中至少有一個將在"明年年底前"前往火星,比人類早至少幾年。
但在這些機器人廣泛使用之前,仍然存在其他重要障礙。人機交互研究人員觀察到,人類對機器人錯誤的容忍度通常遠低於對人類錯誤的容忍度。該領域的研究表明,雖然我們可能會原諒偶爾掉東西的人類同事,但機器人只要犯一個重大錯誤就可能永久失去使用者信任。
隨著機器人整合大語言模型,這個信任問題變得更加複雜,因為大語言模型有時會"產生幻覺"或生成錯誤資訊。由於大語言模型幻覺而自信地誤解命令的機器人可能在物理環境中造成危險情況。雖然 AI 聊天機器人的錯誤可能僅僅令人沮喪,但根據幻覺指令行動的機器人可能會損壞財產或傷害人員。
儘管如此,數十億美元仍在持續流入人形機器人領域,這些投資來自於在科幻作品薰陶下成長起來且不願放棄夢想的科技領袖們。在本周的 Nvidia 年度開發者大會上,CEO Jensen Huang 展示了新軟體,他表示這將説明人形機器人更容易地在我們的空間中移動。當後來被問到何時才能知道 AI 已經無處不在時,他說是當人形機器人"四處遊蕩"的時候。他說這很快就會到來。
"這不是一個五年後的問題,"他說,"這是一個幾年內的問題。"