自變數聚焦於“通用具身大模型”的研發,是國內最早實現端到端統一具身大模型的公司。當前,自變數自研的Great Wall 操作大模型系列的 WALL-A 在多個性能上已達到世界級領先水準,可以實現機器人自主感知、自主判斷、自主操作完成複雜而精細的物理世界任務。
2025年3月13日,在第三屆具身智慧機器人產業發展論壇上,自變數機器人聯合創始人兼CTO王昊談到,傳統的工業自動化及機器人技術具有諸多瓶頸,比如預程式設計、固定軌跡的技術無法解決現實物理世界的複雜交互問題。
王昊指出,大模型的發展為突破傳統機器人學的天花板帶來契機,使其能處理非結構化場景和多樣化任務,用一個通用大模型替代多個小模型,減少了提前建模需求。儘管機器人硬體性能超越人類手部,但在自主操作複雜任務上仍顯不足,系統不穩定、感測器失效等問題限制了其表現。物理世界的隨機性與複雜性,無法被完全感知、無法被提前規劃、甚至無法用語言完全描述。人類通過親歷和交互學習複雜任務,而機器人單純依賴語言描述難以掌握類似技能。未來方向是讓機器人像人一樣學習,通過自我評判、反思、調整行為形成經驗,促進更好學習。
王昊 | 自變數機器人聯合創始人兼CTO
以下為演講內容整理:
物理交互的複雜性
當前關於機器人的理想很豐滿,但現實很骨感。從70年前機器人+人工智慧開始興起時,我們憧憬著機器人能夠融入家庭環境,成為得力助手,解放我們的雙手,擔當起保姆的角色,承擔起打掃家務及執行各類體力勞動的任務。現實卻是,機器人大多被安置在工廠的固定位置,按照預設的軌跡進行運作。至於那些已進入家庭的掃地機器人,儘管它們在一定程度上融入了日常生活,但其行動軌跡同樣相對固定,且功能局限於單一的掃地任務。顯然,這與我們期望中機器人所能達到的高度智慧化、多功能化的形態相差甚遠。
實際上,這一領域經歷了顯著的變革,轉捩點大致可追溯至2021年之前,彼時業界尚未形成清晰的發展路徑。然而,這一切因大語言模型的突破性成功而發生了根本性變化,為機器人技術的發展帶來了前所未有的新視角。
以往機器人主要局限於結構化場景中的作業,其面對的環境和任務相對單一,例如工業生產線上的特定抓取任務。但隨著大模型的興起,我們開始能夠設想一種不同的範式。如今,機器人所處的場景可以不再受限於單一結構,而是能夠應對非結構化環境。以往,為解決各類corner case(邊緣案例),需要開發一系列小模型,利用模組逐一應對。而現在,通過一個通用模型,我們無需再為特定任務提前建模,而是構建了一種通用能力,使機器人在面對未知任務時能夠自主解決。
第二個顯著的不同在於,以往我們對機器人的運動速度和定位精度等有著極高的要求。現在,隨著大模型的到來,我們對機器人的要求不再局限於固定軌跡的抓取任務,而是期望它們能夠具備更通用的、適應動態位置控制的平衡能力等等。
早在十年前,機器人就能寫毛筆字,其技藝甚至超越了眾多人。那時的手術機器人也已經能精準地縫合葡萄皮或進行摺紙等極為精細的操作。此類硬體的性能,無論是從精確度、耐用性還是其他維度考量,均已遠超人類手部的執行能力。
遺憾的是,無論是書法創作還是手術機器人的精細操作,它們都僅能遵循人類預先設定的軌跡進行工作,依賴於預設的固定軌跡或人類的遙操作指令。硬體技術已取得了顯著的進步,遠遠超越了人類自身的生理極限,但在機器人自主執行任務的能力上,卻依然滯後。那麼,在這背後,究竟存在著怎樣的制約因素呢?
當我們發出指令要求機器人執行特定任務,例如抓取一個杯子時,我們期望機器人能夠清晰地感知整個場景,並明確任務定義。然而,在現實中,機器人所面對的情況並非如此。
圖源:演講嘉賓素材
對於所有從事機器人研發的工作人員而言,當構建一個完整的機器人系統時,都會面臨系統不穩定性的挑戰。比如感測器、攝像頭可能會出現隨機故障,這可能是由於環境溫度的變化,如室內過熱,也可能是由於線路鬆動等物理因素。在大約百分之六七十的調試場景中,即便是微小的物理問題,如螺絲鬆動或線路連接不良,都可能導致機器人感知到類似左下角圖像所示的混亂場景。此外,機器人系統自身的不穩定性,包括電機和各種感測器的控制不準確,也會進一步加劇這種感知上的誤差。
上述兩點挑戰主要源自機器人本體在感測器或控制方面存在的隨機性。這種隨機性極難被人類提前完全掌握或徹底解決,因為機器人系統本質上是一個複雜系統,隨機事件的發生不可避免。
另外,另一種隨機性則源於物理世界的固有特性,這也是操作類任務與自動駕駛、導航等領域存在顯著差異的關鍵所在。
在使用大語言模型時,我們給予其一個輸入指令,通常會得到一個特定的輸出,並且這個輸出可能會根據輸入的變化而有所改變。然而,在進行操作類任務時,情況則完全不同。比如模型向機械臂輸入一個完全一致的軌跡指令,要求其沿軌跡推動杯子時,會出現什麼情況呢?事實上,即便在相同的初始狀態下,每次重複執行這一軌跡,其最終得到的結束狀態也各不相同。
這一現象充分揭示了物理世界的複雜性。我們在執行動作時,並非處於真空環境之中,一旦涉及與物理世界的接觸,就會遇到軟硬物體的相互接觸摩擦等情況,這些都會帶來不可控的隨機性。這種隨機性根源於物理世界,但很難被機器人的感測系統及其所具備的能力捕捉到,它們隱藏於表像之下,成為我們無法直接感知的資訊。
正是由於這種隨機性,無論是源自本體感知與控制的隨機性,還是物理世界中接觸與摩擦所帶來的複雜隨機性,都極大地增加了操作任務的難度。
統一的機器人學習範式
回顧人類的學習過程,不難發現,單純依靠語言描述難以真正學會並掌握技能,因為一旦與物理世界發生接觸時,實際情況往往與預設想法大相徑庭。這種複雜性在於,物理世界的反饋與預期往往存在偏差,這種偏差是語言描述難以完全捕捉和傳達的。
人類並不是單純依賴語言描述來進行學習。比如以學騎自行車為例,初學者在剛開始騎自行車時,可能需要調動全身數百塊肌肉,且初期可能對力量源使用不當,如腿部或手臂,而非腰部,這顯然不是正確的方式。然而,一旦掌握了騎行的技巧,人們會迅速調整自由度,僅利用關鍵部位,如大腿和腰部的力量,從而迅速學會騎自行車。這一過程極難用語言詳盡描述,但親歷者卻能通過實踐,將自身複雜的生理系統完美適應於騎行這一活動。
這也正是物理接觸的複雜性,通常是一個個無法被感知、無法被提前規劃、甚至難以用語言充分描述的過程。在實際操作任務中,除了抓取這類相對明確的任務可以通過語言進行一定程度上的描述外,大多數複雜任務都極難用語言來全面闡述。這一點在機器人學習操作類任務時尤為顯著,與讓機器人學習對話或生成創意圖像等任務存在顯著差異。在這些操作類任務中,機器人需要面對並適應物理世界的複雜性和隨機性,這是單純依靠語言描述和預規劃所無法充分應對的挑戰。
過去,我們傾向於採用模組化的方法解決機器人領域的問題,人們普遍認為這樣的系統可能比較簡單。然而,現實總是充滿各種挑戰,比如數據的稀缺性便是一個顯著的問題。雖然在感知領域擁有大量的數據,但在機器人實際操作方面的數據卻較為匱乏。我們曾設想,如果能夠將感知問題解決好,因感知數據的豐富性和已擁有的優秀預訓練模型,或許可以解決90%以上的操作問題,從而使得機器人操作變得相對簡單。
但這在實踐中卻有諸多困難。除了數據問題外,還面臨著如何在現有技術形態上進行升級的挑戰。在產業界,我們已經有了各種成熟的技術形態,此時如果基於過去已有的成果,通過引入一些新的AI模組來使系統看起來更智慧,這就是現在典型的分層系統的構建方法,將感知、規劃、決策作為不同的系統分開處理。實際上,無論是從認知科學的角度,還是從大模型的發展趨勢來看,感知或觀察與動作的真正實現從來都不是能截然分開的。在認知科學中,有一個非常重要的概念叫做“Enaction/親歷”,它強調的是感知與動作之間的緊密聯繫。
舉一個簡單例子,人偶爾會有一些下意識的動作,這些動作其實是在説明人真正觀察或更好地理解某一事物。當人在觀察某物或執行某項任務時所做的動作,很難單純地將其定義為動作或觀察,因為更多時候,這些過程是通過與世界的交互來更好地認識這個世界及其操作物件。所以,我們很難將觀察與動作斷然分開,它們本質上屬於一個統一的系統。
正是由於物理世界的複雜性,我們不得不藉助與世界的互動來認識世界。因此,我們才不得不採用一種端到端的方式,即用一種統一的方法來學習整個物理世界發生的過程。這個過程會因我們與物理世界的交互而發生改變。輸入可能非常多樣,與人類相似,需要將能感知到的所有資訊,包括語言、視覺、動作、觸覺等,全部輸入給模型,讓模型自行學習這個過程到底發生了什麼,並最終執行相應的操作。這是我們所期望的模型能夠真正採用的學習方式,這樣就能夠解決一切那些隱藏於表像之下、我們無法直接感知到的細節,而這些環節一定可以通過模型與世界的交互來完成學習。
自變數實際上構建的便是這樣一個統一的模型系統,這個統一模型系統具備兩個關鍵維度:第一,我們期望該模型能夠執行多樣化的任務,無論是炒菜還是打掃衛生,模型能在學習各種各樣任務的同時,逐步建立起對世界的系統性理解。這些任務背後所反映的物理規律是恆定不變的,我們希望模型能夠通過大量數據學習來掌握這些規律,而非依賴人工經驗建模學習;第二,我們追求模型在所有功能上的統一性,無論是感知、認知還是行動,都希望它們能在同一個模型框架下得以完成。
這兩個維度上形成統一,才有可能是驅使模型實現思考的方式。回顧過去AI領域的發展,一個重要啟示在於,真正能夠持續scaling-up的學習方式,應當與問題的本質相匹配。
相較於分層方法,端到端方法的核心優勢在於其學習方式的可持續性。當計算能力得到飛躍,數據量積累至足夠規模時,端到端方式能夠隨著算力規模的擴大,不斷提升模型的智能水準。
數據的確至關重要。儘管當前互聯網數據豐富,合成與模擬數據也層出不窮,但機器人領域的數據卻相對匱乏,這是當前必須克服的難題。在機器人數據稀缺的背景下,需要彙聚各方力量,包括個人、企業、政府及國家的力量,共同致力於數據的建設與完善。這些數據對於機器人初步理解世界、逐步建立本體感知與認知能力至關重要,因此高精度數據不可或缺。
值得慶幸的是,通過大模型的scaling law,我們可以明確知道所需數據是存在上限的。儘管目前無法精確預測這一上限的具體位置,但其優勢在於,隨著模型處理複雜任務的能力日益提升,解決新的複雜任務所需的數據量將趨於有限,這意味著可以用有限的數據應對無限的問題,這就是scaling law的魅力。
此外,隨著模型能力的不斷提升,對數據品質的要求也在逐漸降低。在端到端模型的發展過程中,現實世界的高質量數據無疑至關重要。然而,隨著模型某些能力的增強,就逐漸不再需要人類採集極高精度的數據來訓練模型,所需數據的精度會逐漸降低,直至發展到某一階段,甚至無需刻意為機器人採集數據。模型完全可以通過觀察人類,學習人類的反應進而掌握相對應的動作,也可以通過理解人類描述複雜的語言指令來完成動作。這是一個逐步演進的過程,從人類輔助機器人採集數據,到機器人融入人類社會,在社會環境中與人類一起學習,對數據的要求將越來越低。
在此過程中,至關重要的一點是模型與數據需同步發展。如果孤立地收集數據,我們難以判斷哪些數據對模型真正有益。所有的數據產生過程必然需要模型的參與,因為模型能夠反饋什麼數據是優質的,這些優質數據又會進一步推動模型能力的提升。這一閉環過程促使我們在收集數據的同時,深入思考哪些數據對模型有益,以及模型的提升對數據提出了怎樣的要求。
以疊衣服這一任務為例,當衣物處於隨機狀態,和被人為提前鋪展平整並遵循固定步驟進行摺疊相比,任務難度存在本質區別。當將一件衣服完全揉成一團,以至於機器人無法識別其是否為衣物時,完成這一任務的難度便遠非僅讓機器人模仿人類行為所能達成。此時,機器人需要進行極為複雜的空間推理和拓撲結構推理,這所要求的能力就不再是單一維度,而是需要多模態推理與執行能力等綜合。類似地,晾衣服也因其涉及軟硬物體的摩擦,複雜度遠超處理可變形的柔性物體。
超越行為克隆
再次對比人類的學習過程,我們不難發現,當前的具身智慧模型及機器人雖然能在特定任務上有良好的表現,但面對完全陌生的場景、出現未學習過的意外狀況時,其表現往往大打折扣,確實不能像人類一樣完成一件事情。人類能夠基於已有知識進行推理,從而輕鬆地將疊上衣的技能遷移到疊褲子或裙子上,但對機器人而言,這卻是難以逾越的鴻溝。
這充分說明,當前的機器人僅僅是在模仿人類行為,而非真正理解學習。如果僅依賴大量人類數據來訓練機器人進行模仿,我們將永遠無法賦予機器人真正的智慧。儘管當前的數據驅動方法能夠擴大訓練規模,提升模型性能,但我們必須意識到,除了學習,機器人還需要具備探索未知的能力。然而,這兩點目前都尚未很好地實現。實際上,通過模仿學習,僅是在要求機器人複製人類的行為進而完成任務,而非教會它們如何真正學習。但核心在於我們要教會機器人自主學習,而不是教會機器人實現某個特定的功能。
當前的學習方式與過去有著本質區別。過去,強化學習主要被用於幫助機器人從零開始完成新任務,但人們往往忽視了強化學習在提升機器人通用能力及自我學習能力方面的潛力,而這種潛力正是我們所期望的。我們期望目前構建的多模態端到端模型,不僅能夠進行模仿,更具備兩個核心功能。首先,它能在物理世界中進行推理,與現實世界交互並獲取反饋。更為關鍵的是,它需對整個過程具備自我評判能力,能夠判斷自身行為的好壞。
在這種強化學習的範式下,我們不再像過去那樣設置複雜的獎勵機制,設計獎勵機制本身就是一項極具挑戰性的工作。人類的學習過程難以量化,如果試圖以量化的方式指導機器人學習,那麼機器人必然無法掌握事物的本質。因此,我們應借鑒人類的學習方式,幫助機器人建立價值觀與是非觀,使其懂得如何學習。我們構建的強化學習機制,旨在使機器人通過上下文的學習,最終以自然語言的方式,掌握解決問題的能力。
此外,還需要讓機器人具備識別錯誤的能力。當機器人意識到某個策略失誤后,能夠轉而採用其他策略,通過觀察執行過程中的細微差別來調整自身行為。機器人需要具備評判與反思自身過去行為的能力,擁有一個能夠壓縮並存儲過去經驗的長期記憶,從而將這些經驗轉化為促進未來學習的動力。
這就是自變數在通用具身智慧大模型的實踐和探索——讓機器人像人一樣去學習,這正是機器人實現通用智慧的關鍵一躍。
(以上內容來自自變數機器人聯合創始人兼CTO王昊於2025年3月13日在第三屆具身智慧機器人產業發展論壇發表的《基於具身大模型構建可精細操作的通用智慧體》主題演講。)