作者:毛爍
GeForce 5090在全球“火”到售罄
GTC始於GeForce ,而25年後,GeForce 5090在全球範圍內售罄。
這款基於 Blackwell 架構的 GPU 是英偉達在過去 25 年中研發的成果之一。與前代產品 4090 相比,5090 的體積縮小了 30%,能量耗散效率提升了 30%,性能也得到了顯著提升。這種性能的提升主要得益於 AI 技術的應用。
這種進步的原因在於人工智慧。GeForce將CUDA帶到了世界,從而實現了AI,而AI現在又反過來徹底改變了計算機圖形。
GeForce 5090 不僅是一款強大的圖形處理器,更是 AI 技術的載體。它將 CUDA 技術帶給了世界,而 CUDA 技術正是推動 AI 發展的關鍵因素之一。通過 CUDA,開發者可以利用 GPU 的強大計算能力來加速 AI 模型的訓練和推理過程。
黃仁勳還提到,GeForce 5090 的成功是 AI 發展的一個重要里程碑。它展示了 AI 技術如何推動硬體設計的進步,同時也為未來的 AI應用提供了更強大的計算支援。
2024年幾乎全世界都錯了——AI的拐點是“推理”
“每一階段的人工智慧發展,都涉及基本三要素。”黃仁勳說。
第一是數據驅動。AI需通過海量數據學習知識、積累數字經驗,數據品質與規模直接影響其智能水準。
第二是自主訓練能力。現代AI能以超即時速度和超人規模自主學習,無需人工干預,例如通過強化學習在數百次試錯中優化決策。
第三是規模化定律。資源投入與AI智慧水準正相關,算力、數據量和模型參數規模的擴展推動性能躍升。
但是,去年幾乎全世界都錯了。
早期的ChatGPT,依賴“單次回應”模式,直接從預訓練數據中生成答案,但遇到複雜問題,則常常因缺乏推理過程而錯誤頻出。 黃仁勳強調,“如今,有了能夠逐步推理的Agentic AI,目前所需的計算量,比去年同期的預期至少減少了100倍。
“沒錯,Agentic AI就是推理。”黃仁勳表示,AI正在經歷一個拐點——AI正在變得更有用、更聰明瞭,能夠進行推理,同時被更多地使用。
事實上,推理就是通過“思維鏈”(Chain of Thought)、“多路徑規劃”和“一致性檢查”等策略,AI可將問題分解為多步邏輯推理,顯著提升準確性。 代價與挑戰 :推理過程需生成10倍於以往的Token,為維持回應速度,算力需求激增,倒逼計算基礎設施升級。
然而,借助強化學習,能夠生成海量Token。利用這種機器人式的方法來訓練AI,則帶來了巨大的計算挑戰。
黃仁勳如是說:“我曾作出預測,數據中心建設投資規模將攀升至一萬億美元,並且我有十足的把握,認為這一目標很快就會達成 。”
事實上,黃仁勳的預測已經得到了強力的佐證,根據TrendForce集邦諮詢的最新調查報告,2024年AI伺服器市場增長動能強勁,尤其是搭載NVIDIA Hopper系列GPU的伺服器需求大幅增加,導致AI伺服器出貨量年增長46%。預計2025年,AI伺服器出貨量將同比增長近28%,佔整體伺服器出貨量的比例將進一步提升至超過15%。
“Hopper可以為每個使用者每秒產生大約100個Token。”黃仁勳說。
其實,出貨量增長的背後,還緣與通用計算已步入發展瓶頸,亟需一種全新的計算模式。
當下,全球正處於一場平台變革之中,從運行於通用電腦上的手工編碼軟體,轉向運行在加速器與 GPU 上的機器學習軟體。這種新興的計算方式目前已跨越發展的拐點,正是這個拐點,正加速著舊式數據中心構建方式轉變為構建新型基礎設施的新方式——“AI工廠”。
買的多 省越多——相同ISO 功率,25倍能效
也正因如此,NVIDIA宣佈在這一次,推出AI工廠的操作系統——Dynamo。
NVIDIA Dynamo作為一款精心打造的開源推理服務框架,以其獨特的優勢在大規模分散式環境中嶄露頭角。它具備高輸送量與低延遲的顯著特點,專門為生成式人工智慧與推理模型的部署而設計,是行業內不可多得的利器。
黃仁勳表示,未來的應用程式並非企業IT,而是智慧體。操作系統將是Dynamo類的軟體。
Dynamo 不僅能説明 Hopper,對 Blackwell 的説明更大,Blackwell 的性能遠優於 Hopper。因為在數據中心相同的 ISO 功率限制下,Blackwell 方案的效率比 Hopper 提升了 25 倍,性能優勢明顯。這意味著,在數據中心有限的能量條件下,Blackwell 能夠實現更高的運算效率。
更值得注意的是,配備 Dynamo 的 Blackwell NVLink 72的 AI 工廠性能是 Hopper 的 40 倍,體現了其在實際應用中的強大優勢。黃仁勳透露,NVIDIA 計劃於今年下半年推出升級版的 Blackwell Ultra MB-Link 72,該版本的處理能力將提升 1.5 倍,並新增注意力指令,記憶體容量也將提升至原來的 1.5 倍,進一步強化了其性能表現。
所以,購買越多,節省越多。
“先橫后縱”——2026 年發佈下一代 AI 晶片平臺
在AI 晶片平臺的演進方面,NVIDIA則宣佈將將於 2026 年下半年發佈Vera Rubin NVL144,屆時有望為 AI 領域帶來更強大的計算能力。NVIDIA 一直以來都以科學家的名字為其晶元架構命名,這已成為其文化的重要組成部分。此次,NVIDIA 延續這一傳統,將下一代 AI 晶片平臺命名為 “Vera Rubin”,以紀念美國著名天文學家Vera Rubin。
據黃仁勳介紹,Rubin 架構的性能將達到 Hopper 的 900 倍,相比之下,Blackwell 架構已經實現了對 Hopper 68 倍的性能提升。Vera Rubin NVL144 預計將於 2026 年下半年發佈,屆時有望為 AI 領域帶來更強大的計算能力。
計算架構的突破方面,黃仁勳認為,在縱向擴展之前,應該先橫向擴展。作為橫向擴展的核心,NVLink通過低延遲、高頻寬的互連技術,將數百甚至數千個GPU整合為一個"巨型晶片" 。其第六代交換機已實現72個GPU的緊密協同,使系統表現為單一計算單元,顯著提升記憶體訪問效率和能效比 。
“計算具有三大支柱,其一是計算本身,其二是網路。”黃仁勳說。
在網路層面,NVIDIA決定擴展網路架構投資Spectrum(基於乙太網的增強型網路平臺,通過動態路由、硬體級擁塞控制和性能隔離技術)、InfiniBand(專為低延遲、低抖動場景設計,通過等距路由保證數據同步性)。
這種"先橫后縱"的擴展策略,使NVIDIA能夠為AI工廠提供從單晶元到超算集群的全棧解決方案。黃仁勳表示,而Spectrum X將成NVIDIA為企業轉型AI公司的關鍵賦能平臺。
“快慢速思考”雙系統——Isaac GR00T N1通用人形機器人宣佈開源
在這次GTC上,NVIDIA還發佈了開源的Isaac GR00T N1通用人形機器人基礎模型,具備完整的資料集、多模式輸入以及開源特性,有望説明研究人員針對特定場景或應用任務。
核心技術突破方面 Isaac GR00T N1採用獨特的雙系統架構設計,用於快速和慢速思考,靈感源於人類認知機制:
系統1(快速反應) :基於8000萬參數的擴散變換器,以200Hz高頻即時生成動作軌跡,實現0.1秒級避障、抓取等即時回應能力,突破傳統機器人預設指令限制 。
系統2(決策規劃) :依託70億參數的多模態視覺-語言模型(NVIDIA-Eagle + SmolLM-1.7B),以7-9Hz處理語義指令並分解任務,例如將"整理客廳"拆解為物品識別、路徑規劃等步驟,醫療場景中還能綜合病房布局規劃最優配送路徑。
GR00T N1的開源策略,降低了90%開發成本,吸引波士頓動力、Agility Robotics等14家頂尖企業接入。開發者可基於開原始程式碼快速定製應用,如1X Technologies僅用2周,便完成家庭機器人NeoGamma訓練 。 同步發佈的Newton物理引擎由NVIDIA、DeepMind與迪士尼聯合開發,專為機器人觸覺反饋和精細動作設計,支援GPU加速類比。其與MuJoCo框架相容,可將機器學習負載處理速度提升70倍,助力虛擬環境超實時訓練。
“利用基於英偉達Omniverse和Cosmos構建的藍圖,開發者可以生成海量多樣化的合成數據,用於訓練機器人的策略。”黃仁勳強調。
不僅如此,NVIDIA更是構建了“合成數據生成-模擬訓練-集群測試”的全流程。
Omniverse藍圖:生成海量多樣化合成數據,覆蓋工業抓取、家庭服務等場景。
Isaac Lab:進行強化學習與模仿訓練,優化機器人策略。
Mega集群測試平臺:在Blackwell工廠數位孿生中驗證多機器人協同,確保空間推理與靈巧操作可靠性。
黃仁勳預測,全球工作力短缺5000萬的背景下,人形機器人將催生千億美元級市場。隨著GR00T N1開源生態的擴展和Newton引擎落地,機器人技術正從實驗室快速走向工業、醫療、家庭等場景,開啟“人機共生”新時代。