在比亞迪、奇瑞等車企爭相於推進高階智駕功能的普惠化時,聚焦於智駕技術前沿的科技巨頭們,已經開始向新的方向攻進——世界模型。
2023年,特斯拉在CVPR上向公眾介紹了一款新的端到端模型,它由完整的4D神經網路構成,能夠理解世界運行的規律;在2025 CES上,英偉達宣佈將推出世界模型Cosmos,其專為理解物理世界打造,可預測和生成“物理感知”的視頻。
圖片來源:英偉達官網
而在國內,2024年7月27日,NIO IN 2024蔚來創新科技日上,蔚來正式發佈中國首個智能駕駛世界模型 NWM,即可以全量理解資訊、生成新的場景、預測未來可能發生的多元自回歸生成模型。
理想則緊隨其後,在NVIDIA GTC 2025上發佈了MindVLA,這款基於自研的重建+生成的雲端統一世界模型,能夠深度融合重建模型的三維場景還原能力與生成模型的新視角補全及未見視角預測能力,構建接近真實世界的模擬環境。
特斯拉、英偉達佈局,理想、蔚來快速跟進,顯而易見的是,世界模型已經成為智慧駕駛領域繞不開的新技術趨勢,甚至在“AI教母”李飛飛World Labs、谷歌DeepMind入局后,世界模型的意義已經被看做是整個AI領域的關鍵節點。
由此便產生了一系列疑問,以智駕為技術落地形式的車企與科技巨頭,為何集體選擇了世界模型?這一全新技術架構究竟是靈丹妙藥,還是又一個技術噱頭?它究竟能為當下智能駕駛帶來何種提升?
為什麼我們需要世界模型
世界模型誕生的初衷,實際是為解決AI領域的痛點的。
以智能駕駛為例,2024年特斯拉曾對外發表一段聲明稱,啟用特斯拉Autopilot的車輛每行駛763萬英里發生一起車禍,而未使用Autopilot的駕駛員則每行駛95.5萬英里就會發生一起車禍。作為佐證,美國國家公路交通安全管理局和聯邦公路局的數據顯示,在美國平均情況下每行駛67萬英里就會發生一起車禍。這表明特斯拉的智慧駕駛技術確實降低了事故發生率。
然而,儘管特斯拉發佈了一系列有關智能駕駛的安全報告,仍未能完全消除公眾對其安全性的疑慮。例如在2016年,一輛特斯拉Model S就曾在Autopilot狀態下與白色半掛卡車相撞,導致駕駛員不幸身亡。此外,2022年林志穎也在駕駛一輛特斯拉Model X時發生了碰撞事故,雖然事故原因仍無明確的官方定論,但坊間仍有部分人認為,此次碰撞與可能發生在Autopilot狀態下。
對智能駕駛安全性的質疑不僅來自於消費者,自2022年至今,因擔心特斯拉智能駕駛技術可能導致撞車事故,美國管理機構已下令多次召回——這無疑會對智駕技術的發展帶來嚴重影響,因為智駕技術與企業賴以生存的數據與盈利皆來自於規模化量產,而消費者與監管機構的不信任必然會削減來自下游主機廠的訂單。
市場對智能駕駛的不信任體現在不安全,而不安全在技術層面則體現在感知演算法的空間理解能力——事實上,智能駕駛自2020年至今,所發佈的多項技術架構均與提升空間理解能力有關。
例如2021年,特斯拉正式提出了BEV+Transformer的技術範式,其中BEV演演算法能夠將特斯拉環繞車身的8個攝像頭提供的視覺特徵拼接為時序序列,並做到跨攝像頭的空間關聯,接下來再將通過Transformer生成的每個位置的語義和幾何資訊映射到一個鳥瞰圖空間中,進而智駕提供一張計算機視角下的環境地圖。
圖片來源:TESLA AI DAY直播
這一技術範式一經發佈,立刻被全球智駕企業引用,成為了當下智駕技術的通用範式,但隨著該範式的普及,其不足也開始暴露,就是BEV演算法的框架是基於二維的,這導致其不僅缺乏對周圍環境中各類障礙物的高度資訊,也無法準確感知並映射複雜的異形障礙物。此外,感知系統如果沒能成功進行特徵識別,也將導致智駕無法正確做出相應的規控策略。
於是在2022年,特斯拉發佈了Occupancy Network,這一技術架構下特斯拉會將感知環境劃分為1cm³的體素網格,進而把世界轉化成一個稠密的3D佔據場。如此一來,感知系統無需再預設地面平坦或物體形狀,就能識別異形障礙物,並且還支援移動障礙物軌跡跟蹤,這使得智駕無需依賴高精地圖中的精度資訊,也能實現複雜的道路拓撲推理。
Occupancy Network把對環境的感知升級為三維化描述,但其感知缺失表面材質資訊,對細小物體等不確定性的描述不足,於是在此之後,感知演算法在空間理解能力的再次升級方向變為了重構世界,端到端架構又被特斯拉推上前台。對比之前規則+模組化演算法的結構,端到端可以用單一模組實現從感測器資訊輸入到車輛控制,從而減少信息損失,讓系統能夠應對更多場景,具備更強的泛化能力,這能讓輸出的規控策略更加擬人化,並大幅降低長尾極端場景Corner case出現的可能性。
但是問題又出現了,如果僅依賴端到端模型,時間維度資訊的融合和推演都是定長的邏輯,自動建模長時序資訊的能力相對匱乏。在智駕系統中,預測未來事件,並評估其影響的能力對安全性和效率也至關重要能想像變化才是真正的時間理解,想像的真實度和豐富度是理解深度的體現。
由此,世界模型出現在了行業視野內,成為了接下來提升智駕能力的必經之路。
世界模型能為智駕帶來什麼
世界模型的靈感源於人類自然形成的世界心智模型。我們通過感官獲取的抽象資訊在大腦中被轉化為對周圍世界的具象理解;這些“模型”早在人類開始研究AI之前就已存在。基於這些模型,我們的大腦對世界進行預測,從而影響我們的感知和行動。
舉個例子,智能駕駛在輸出規控策略之前,會基於周圍一定障礙物的移動軌跡來預測其接下來的路線,進而計算車輛自己的可行駛空間,而人類駕駛時則會優先通過觀察障礙物的種類、外形特徵來評估接下來的行駛軌跡——同樣是汽車,一輛軒逸和一輛GT-R必然存在不同的駕駛風格,但該經驗是人類基於潛意識完成的,對於智駕來說則需要有意識的推演。所以基於這一點,人類駕駛員可以本能地調整自己的駕駛策略,而智駕不能,正是這種世界心智模型的潛意識推理能力,讓行業內諸多學者認為,世界模型就是AI實現人類級別智慧的前提。
簡單來說,世界模型就是讓智慧駕駛模擬人類與世界交互,去經歷更多的事情,進而更準確地認識、預測這個世界,而不是將範圍拘泥於“駕駛”這一件事中。而在被運用到智駕領域后,世界模型將通過生成式大模型生成帶有預測性質的視頻數據,實現Corner Case的多樣化訓練;並採用強化學習的方法認識複雜駕駛環境,從視頻輸出駕駛決策。目前構建世界模型的方法主要有兩種:一種是憑空想像,“無中生有”;另一種是根據現有資訊完善資訊,如輸入文字、圖片、視頻等生成更多更豐富的視頻。
首先以英偉達的Cosmos為例,這個世界模型平臺上有一系列開源、開放權重的視頻世界模型,其作用也非常明確,就是為機器人、智能駕駛等在物理世界中運行的AI系統生成大量照片級真實、基於物理的合成數據,以解決該領域數據嚴重不足的問題。據英偉達介紹,Cosmos 經過了9000萬億個token的訓練,數據來自2000萬小時的真實世界人類互動、環境、工業、機器人和駕駛數據,並且模型可以針對特定應用進行微調。
圖片來源:英偉達官網
對此,黃仁勳曾表示,“機器人技術的ChatGPT時刻即將到來。世界基礎模型對於推動機器人和自動駕駛汽車開發至關重要,但並非所有開發者都具備訓練自己的世界模型的專業知識和資源。我們創建Cosmos是為了讓物理AI普及化,讓每個開發者都能用上通用機器人技術。”
而蔚來的世界模型NWM則是能夠基於真實世界的視頻進行重構和推演,在重新編輯的過程中,分解出背景中靜態的、動態的資訊,這可以讓NWM切換到任意角度分析對應的細節資訊,不僅可以由此建立起一個有無限可能的模擬世界,還可以構建出一個全憑想像、但完全基於真實世界物理法則的世界。
據蔚來官方表示,NWM可以在0.1秒內推演出216種可能發生的軌跡,尋找最佳決策,然後在接下來的0.1秒內,根據外界的信息的輸入,重複更新內在時空的模型,那再去預測216種可能性。以此迴圈,跟隨駕駛軌跡持續預測,得到駕駛的最優解。“這就是在萬千“平行世界”中尋找最優解,像是在漫威電影中,擁有了時間寶石的奇異博士,可以操控時間旅行,從所有結果中尋找到能獲取最終勝利的一個方案。”
圖片來源:蔚來官網
除了提升智駕的安全性,世界模型通過理想MindVLA為智駕賦予了更多功能,例如其具備更強的通識能力,可以基於視覺感知識別出如星巴克、麥當勞等商店招牌,並在沒有明確導航信息的情況下,自主漫遊並尋找目的地;另外在收到用戶類似“找個停車位”這樣的模糊指令時,MindVLA可以藉助世界模型強大的空間推理能力自主尋找車位並執行停車操作。
而在功能性提升的基礎上,世界模型還能降低智駕企業的訓練成本。在基於語言模型的智駕模型中,其輸入是周圍駕駛場景的圖像數據,輸出的則是諸如道路拓撲、各類交通參與者在內的語義資訊,這導致其不具備自回歸特性,需要投入大量人力標註數據,進而維持有監督學習;但在基於世界模型的自動駕駛大模型中,同樣輸入的是周圍駕駛場景的圖像,輸出的卻是下一個時序的場景圖像數據,這類自回歸模型的訓練過程是無需數據標註的無監督學習。
不過,儘管世界模型展示出了諸多強大的能力,但其發展目前仍然面臨不少挑戰。例如在技術層面,現有世界模型對物理規律的建模仍停留在剛體運動層面,難以準確刻畫流體、柔性體等複雜動力學行為,例如特斯拉在暴雨場景測試中發現,車輛對積水路面輪胎滑移率的預測誤差達42%,導致制動距離偏差超過1.2米。此外,世界模型對時空連續性的建模精度直接影響預測可靠性,根據百度Apollo測試顯示,8秒預測時域的軌跡誤差呈指數增長,最大偏差達2.3米。
在數據層面,世界模型的訓練與推理對算力提出嚴苛要求,例如特斯拉Dojo超算訓練單模型需消耗28MW電力,這相當於相當於3萬戶家庭日用電量,成本達380萬美元。另外參考wayve的世界模型,需要在64張A100訓練15天,有65億參數。視頻解碼模組也需要在32張A100訓練15天,26億參數量。從wayve展示的視頻中可以看出很多若隱若現,或者中途車輛不斷變化的情況,這也說明目前的世界模型生成的未來數據效果還比較一般。
總結
世界模型為智慧駕駛帶來了從“感知執行”到“認知決策”的范式躍遷。傳統系統依賴規則庫與特徵識別,難以應對中國複雜的“人車混行”“道路突變”場景。而世界模型通過神經輻射場(NeRF)構建動態三維物理空間,在BEV視角下融合多模態數據,使車輛不僅能識別障礙物,更能理解其運動規律。這種物理規律的內化,讓系統突破了依賴海量標註數據的局限,真正實現“舉一反三”的類人推理能力,這些突破標誌著智能駕駛從“輔助工具”向“認知夥伴”的進化。
作為深耕AI領域的觀察者,我認為世界模型的價值不僅在於技術指標提升,更在於重構了人機協作的本質。當車輛能理解輪胎與路面的摩擦方程、預判道路參與者的特殊行為,智能駕駛將超越“擬人化”階段,進化為具有環境認知與創造力的交通主體。儘管面臨算力、數據等挑戰,但誰能率先構建“物理規律+駕駛常識”的認知引擎,誰就能在這場出行革命中佔據制高點。這不僅是技術的競賽,更是對人類智慧本質的深度探索。