15年後他再次站到黃仁勳身旁 躍入同一條戰壕
更新于:2025-03-26 02:22:27

本文轉自:都市快報

黃仁勳和黃曉煌(右)

記者 沈積慧

一身黑色皮衣的老黃站在英偉達GTC 2025的舞臺上,一口氣演講了兩個小時。他揭秘了一種訓練機器人的新方式:完全即時模擬類比,以及背後的人形機器人基礎模型:GR00T N1,並表示“機器人的時代已經到來”。

就在老黃走下舞臺的幾個小時後,他的老同事,群核科技創始人兼董事長黃曉煌在GTC大會上發佈並開源了自主研發的空間理解模型SpatialLM,與空間智慧解決方案SpatialVerse一起,組成了一對“神仙老師”,聯手讓機器人完成從認知理解到行動交互的完整閉環訓練。

和老同事兼領導見面后,黃曉煌發了條朋友圈:“總被調侃如果不賣英偉達股票用來創業,和創立群核科技的回報,哪個更大?我覺得從GPU高性能計算到今天具身智慧訓練,創業一路受到Nvidia和老黃的思想影響,是畢生財富。談錢就沒意思了。”

杭州小龍發佈“神仙老師”

這是一個客廳,這面是客廳的牆,這張是沙發……給SpatialLM“刷”一段視頻,它就能生成物理正確的3D場景佈景,像人類環顧四周環境就能理解背後的空間結構一樣,能夠基於從視頻中提取的點雲數據,準確認知和理解其中的結構化場景資訊,並將它以腳本語言的形式呈現出來。

它的意義在於,突破了大語言模型對物理世界幾何與空間關係的理解局限,讓機器具備空間認知與推理能力,為具身智慧等相關領域提供空間理解基礎訓練框架。

相比其他讓機器學習物理世界的方式,SpatialLM的過人之處,首先是更通用的數據輸入模式。不需要藉助智慧穿戴設備作為感測器輸入數據,手機、相機拍攝的視頻都可以成為數據來源,大大降低了開發者的數據採集門檻。

其次,空間場景符合物理正確原則。所謂的物理正確,就是虛擬場景里反映的一切,都是符合物理基礎的。比如毛毯,看上去具有絨顆粒感;裝有熱水的玻璃杯,散發出騰騰熱氣;人坐在柔軟的沙發上,能看到接觸面壓出的褶皺。

SpatialLM具有創建物理正確的場景佈局的“真”本事,背後是群核科技這家因為“杭州六小龍”而被大眾認識的科技公司,過去10多年積累下來的海量的3D數據和空間認知數據。

如果說SpatialLM模型“教”的是如何讓機器人更好地感知世界,那麼去年群核科技發佈的空間智能解決方案SpatialVerse,則通過合成數據方案為機器人搭建起接近物理真實的“數位道場”,幫助它們在模擬環境下完成例如疊被子、遞送水杯、開關冰箱門等行動的交互訓練。

有了這對“神仙老師”,機器人將獲得從認知理解到行動交互的完整閉環訓練。

老同事之間的不謀而合

嚴格說來,黃曉煌和黃仁勳的關係不只是同事。當年,在浙大完成本科學業后,他能夠遠赴美國伊利諾伊大學香檳分校(UIUC)攻讀計算機碩士,拿的就是英偉達全額獎學金。而他的研究方向,就是用GPU做高性能計算。

2010年,黃曉煌從UIUC碩士畢業,按部就班進入英偉達工作,並參與了CUDA開發。只不過當時在矽谷,英偉達還是一家不太起眼的小公司。

沒想到兜兜轉轉15年,英偉達成了當下全球最有影響力的科技公司,黃曉煌創立的群核科技也開啟了IPO征程,他們和黃仁勳正在眺望同一片和具身智慧相關的星辰大海。

早在兩個月前的CES大會上,黃仁勳稱,“AI下一個前沿就是物理AI”,同時重磅官宣了世界基礎模型開發平臺——Cosmos。

Cosmos是一個能通過現在畫面,去預測未來畫面的模型。它可以從文本/圖像輸入數據,生成詳細的視頻,並通過將其當前狀態(圖像/視頻)與動作(提示/控制信號)相結合來預測場景的演變。它可以讓機器人準確地理解物理世界,和SpatialLM想要扮演的角色和達到的目標一樣。

本屆GTC上,英偉達還一口氣推出了兩個新的藍圖,由NVIDIA Omniverse™和Cosmos平臺提供支援,為開發人員提供大規模、可控的合成數據生成引擎,主要用於訓練后的機器人和自動駕駛汽車。

Cosmos與Omniverse搭配使用,虛實結合,讓虛擬世界的設計搬到現實世界訓練。

讓機器人“看懂”物理世界有多難?

如何讓掃地機器人分別地板上的一坨狗屎和一堆形狀像屎的普通垃圾?這個問題曾難倒大多數掃地機器人公司。

剛開始,掃地機器人公司試圖用攝像頭替換雷射雷達來識別寵物糞便,隨之而來的問題是:訓練的時候幾乎找不到一個充滿貓屎狗屎的真實場景做實驗。

早在疫情時,群核科技就跟一家掃地機器人公司合作,通過數據合成在數位世界完成了機器人對寵物糞便識別的訓練。

為了模擬真實寵物糞便的樣子,當時,群核科技做數據合成的設計師花了好幾天時間,專門研究各種形狀的貓屎和狗屎,最後因為合成得過於逼真,被其他設計師在微博吐槽:貓有必要做得這麼逼真嗎?

就像棋手,只有經過無數次的廝殺,才能從一個小白變成高手一樣,機器人在真正走進現實生活成為人類幫手之前,也要經過大量的學習和訓練,通過一遍遍感知、行動、反饋,從而形成動態學習能力。所以空間認知是機器人與現實交互的基礎能力。

合成數據的方式可以把訓練機器人的環境放到數位世界里,不僅時間可以被壓縮,物理世界里要用1萬天跑完的數據,數位世界里也許1天就可以跑完,模擬場景還可以無限泛化出海量的場景供機器人學習,從而實現“舉一反無數”。

這也是為什麼不久前群核科技所在的杭州上城區宣布啟動具身智慧虛擬訓練場共建計劃,專門為具身智慧建了一座“學校”。其中一份“教案”,就是群核科技旗下的“群核空間智能平臺”SpatialVerse。

目前,在空間和具身智慧訓練上,群核科技也已經與矽谷頭部科技企業等在內的一批國內外具身智慧企業達成合作。

浙江赴滬招才引智
浙江赴滬招才引智
2025-03-26 04:54:34
悅己消費 商機可期
悅己消費 商機可期
2025-03-26 04:55:19
廣東加強紅樹林保護
廣東加強紅樹林保護
2025-03-26 04:55:31
萬噸貨輪一天可卸完
萬噸貨輪一天可卸完
2025-03-26 04:55:34