上海智元新創技術有限公司成立於2023年2月,是一家致力於以Al+機器人融合創新、打造世界級領先的具身智慧機器人產品及應用生態的創新企業。
2025年3月13日,在第三屆具身智慧機器人產業發展論壇上,智元具身研究中心常務副主任任廣輝表示,具身智慧是未來十年人工智慧技術發展的核心驅動力,預計將催生一系列革命性產品。具身智慧的演進與發展離不開海量數據的支撐。當前,具身智慧面臨的最大瓶頸在於缺乏充足的機器人操作數據,這限制了技術的進一步發展和應用。現有具身模型在落地過程中存在泛化性差、場景適應性弱等問題,一旦場景發生變化,成功率會大幅下降。此外,擴展新任務時需要重新收集大量數據,成本高昂,且不同機器人本體的數據無法共用,進一步加劇了數據稀缺的問題。由於缺乏實際落地和數據迴流,模型無法持續進化。
針對這些挑戰,智元提出了Vision-Language-Latent-Action(ViLLA)這一創新性架構,該架構能夠充分利用數位金字塔中各個層級的數據資源,具備人類視頻學習能力、小樣本快速泛化能力、一腦多形能力和持續進化能力。
任廣輝 | 智元具身研究中心常務主任
以下為演講內容整理:
公司發展與具身智能趨勢
智元新創成立於2023年2月,2023年8月便發佈了原型機遠征A1。同年10月,下線100台產品,到2025年1月,累計下線達1000台,在量產機器人領域,發展速度處於國內外領先水準。
圖源:智元新創
從AI發展歷程來看,1950年AI概念被提出,2012年Xnet的出現掀起了中國AI領域的第一波浪潮,誕生了CV四小龍等一批企業。2022年底,GPT的爆發引發了第二波AI浪潮。近期,Deepseek R1在春節期間受到全球關注。此前這些多屬於數位世界AI,而具身智慧才是對世界影響最為深遠的領域,有望成為AI發展的下一個“GPT時刻”,也是未來十年科技發展的核心驅動力。如今,眾多機器人公司應運而生,智元機器人便是其中之一。
具身智慧是人形機器人的核心價值所在。機器人本體是基礎,雖然其構型和硬體最終會趨於相似,但AI賦予了硬體更多應用可能,使其擁有靈魂。回顧汽車和手機行業的發展歷程,可對機器人未來發展進行合理想像。從技術角度看,以往機器人的演算法技術多處於G1、G2階段,主要是人工編排或拆解的模組化程式,執行預設任務。如今,早上中午到達G3、G4階段邁進,更傾向於端到端的技術,未來甚至可能實現大小腦合一的端腦袋大模型。在AI的演算法、算力和數據三要素中,演算法不斷演進,而數據至關重要。然而,當前機器人領域的數據,無論是公開數據還是企業內部數據,規模都遠不及互聯網上其他AI領域,如OpenAI和一些圖像視頻相關的數據。
數據採集與開源專案
在數據方面,以一些先進成果為例,SFD目前已發展到V13版本,V12版本時使用了1000萬條數據進行訓練;OpenAI的Sora使用了數百萬小時的視頻數據;特斯拉的Optimus計劃今年量產數千台機器人,並且在積極採集數據。但縱觀機器人領域公開數據集,存在諸多問題。學術界的數據集多為桌面型,模擬場景簡單,物體種類少,通常只有一二十種,任務也多為驗證單一能力,實用性不足。工業界的數據定製化嚴重,缺乏通用場景數據,任務簡單且數據不流通,分散在各個企業內部。
鑒於此,智元於2023年9月在上海建立了數采超級工廠。工廠面積達4000平方米,擁有3000多種真實物體,涵蓋多種場景。2023年年底,公司將相關數據集開源,推出AgiBot World公開專案,這是首個全域真實場景數據集,涵蓋公司自研硬體數據,且從採集到審核全程有人工品質把控。該數據集覆蓋家居、工業、零售等5大場景,包含200多個任務、3000多個物體和100萬條軌跡數據。
為配合數據採集,公司設計了一套本體硬體平臺,配備環繞攝像頭、多自由度機械臂和靈巧手等。同時,採用多種採集模式,如VR採集和動作協同採集,並搭建了管控數據的第二平臺。與其他公開數據集相比,例如openx-embodiment,智元的數據集在場景覆蓋、技能數量等方面優勢明顯。openx-embodiment是混合多種數據集整合而成,而智元的數據集是自主採集的原生數據。
通用計算技術大模型及優勢
基於豐富的數據基礎,智元在本周一發佈了通用具身基座大模型。該模型從VLA架構進化到ViLLA架構,並部署在公司不同的硬體本體上。
當前具身智慧模型在落地過程中面臨諸多困境,如泛化性差,場景切換后成功率大幅下降;擴展新任務時需要重新採集大量數據,成本高昂;不同本體的數據無法共用。這些問題導致模型難以實際應用,數據迴流困難,形成惡性循環。現有模型存在局限,小模型參數量少,未充分利用互聯網圖文視頻數據,缺乏通用場景感知和動作理解能力,技能單一。以VLM構建的具身大模型雖有一定通用場景理解能力,但未充分利用互聯網視頻數據。以Video generation為基礎構建的模型,對指令理解和泛化能力不如VLM類模型。
為此,智元提出ViLLA架構,旨在充分利用數據計算法中各層級的數據,包括互聯網文本、圖文、視頻數據,以及模擬和真機數據,構建通用場景感知、指令理解和精細動作操作能力。ViLLA架構通過VLM+MoE構建通用場景感知和指令理解,同時引入兩個專家模組。Latent Action Expert利用互聯網大規模的操作數據,根據當前觀測和指令推薦後續動作;Action Expert將抽象動作概念轉化為本體可執行的動作。
ViLLA架構具有顯著優勢,能夠使用人類視頻和跨本體視頻數據,甚至行業內開源的不同本體機器人數據,構建強大的通用場景感知和理解能力,實現極少數或零樣本的泛化,降低新場景、新任務的后訓練成本,提高模型落地可行性。此外,該架構還具備“一腦多形”的能力,可將抽象能力應用於不同本體,便於模型落地到各個細分場景,通過數據回流系統獲取更多數據,形成良性迴圈。在5種不同複雜度的真實場景測試中,ViLLA模型相比當前其他方法,成功率有顯著提升。同時,單獨驗證結果表明,ViLLA架構新增的抽象動作規劃能力性能表現優異。智元相信,ViLLA架構的推出,將推動具身智慧朝著通用化、開放化、自動化方向發展,使其能夠執行更多任務,從封閉場景走向開放場景,從預設程式任務轉向開放指令任務,更便於應用於各行業。
(以上內容來自智元具身研究中心常務主任任廣輝於2025年3月13日在第三屆具身智慧機器人產業發展論壇發表的《數據驅動的通用具身基座大模型GO-1》主題演講。)