GTC 2025 | NVIDIA開源“三位一體”——“推理模型+加速庫+多智慧體協作”“覺醒”代理式AI“新範式”
更新于:2025-03-26 00:38:15

作者:毛爍

當前,人工智慧發展正經歷範式重構的關鍵階段。隨著Scaling Law受限於高質量數據、知識的日益短缺,全球AI產業開始將戰略重心從單純擴展基礎模型規模,轉向開發具備高階認知能力的推理模型體系。

這一轉型的核心在於,推理模型能通過認知能力升級、數據效率重構和技術路徑創新,突破了傳統基礎模型的天花板。

反之,基礎模型則需要萬億級token訓練才能達到基準性能。相比之下,面對高品質訓練數據枯竭的困境,推理模型顯著降低了對數據量的依賴,正如DeepSeek-R1可以在1/10訓練數據量下,仍能在STEM領域超越通用模型表現。

事實上,在製造業、醫療、教育等諸多垂直領域,推理模型展現出遠超基礎模型的場景滲透力。

例如,在工業、製造業領域,推理模型可以以代理式 AI的方式,通過融合設備日誌、感測器時序數據及物理機理,實現故障預測準確率的提升,降低產線能耗;在醫療行業,基於臨床決策鏈構建的模型(如MedFound-DX),可通過捕捉醫生推理路徑,在MedR-Bench評測中簡單診斷準確率達85%;在教育行業,基於推理模型的自適應學習系統,可以通過錯題歸因建模與認知負荷分析,動態生成分層學習路徑,使知識點複測正確率大幅度提升......

其實,在全球人工智慧技術反覆運算的關鍵階段,推理模型的突破性進展引發產業高度關注。多領域交叉驗證表明,當前模型能力已超越基礎數據擬合階段,正朝著領域知識內化與動態決策優化的方向演進。

正如NVIDIA 創始人兼首席執行官黃仁勳所言:“推理和代理式 AI的採用速度非常驚人。”

這或許揭示了一個核心競爭邏輯——構建“數據-場景-推理-代理式 AI”的閉環賦能體系,將成為下一代智慧生態的核心競爭力。

Scaling Law“撞牆”后的範式轉移:NVIDIA推出開源模型Llama Nemotron

這一技術演進路徑在AI產業的“風向標”——NVIDIA的最新佈局中,得到有力的解釋與佐證。2025年3月18日,NVIDIA正式發佈開源的Llama Nemotron系列推理模型,該產品矩陣通過模組化架構設計,為企業開發者提供開箱即用的智慧基座。

截取自NVIDIA網頁

在技術革新層面,該系列著重強化了多智慧體協同推理能力,支援分散式任務分解與動態策略優化,為複雜業務場景的智能化升級提供了工程化解決方案,通過突破性訓練框架顯著增強AI智慧體的複雜任務處理能力。

此外,NVIDIA 依託NVIDIA DGX Cloud平臺,採用自主生成的合成數據與開源數據集構建混合訓練體系。經過多階段強化訓練,在數學推演、代碼生成等核心場景,讓NVIDIA Llama Nemotron模型實現與基礎模型相比,20%的精度突破,推理速度較主流開源模型提升5倍。

此次推出的NVIDIA Llama Nemotron包括 Nano、Super 和 Ultra 三種規模,每種規模都針對不同部署需求進行了優化。  

Nano版本:適配邊緣設備,保持邊緣計算場景下的超強推理精度。 Super版本:單GPU實現精度與輸送量的雙優平衡。 Ultra版本:多GPU並行架構支援,攻克企業級複雜決策任務。

面對企業的部署需求,NVIDIA在NVIDIA AI Enterprise 軟體平臺推出了全新的代理式 AI 工具與軟體。其中包括用於整理數據源和實現 AI 智慧體自動化的開源工具NVIDIA  AI-Q Blueprint;還有全新NVIDIA NIM 微服務,其作用在於優化智慧體應用程式的推理能力,確保 Meta、微軟及 Mistral AI 等最新 AI 模型得以穩定部署。

而對於企業的多樣化需求,NVIDIA也將用於開發模型的工具、數據集和后訓練優化技術全面開放,為企業提供靈活性,以構建自己的自定義推理模型。

目前,諸多雲計算及AI應用廠商紛紛集成了NVIDIA Llama Nemotron 模型,為客戶提供代理式 AI服務,其中涵蓋微軟、SAP、ServiceNow 等。

據瞭解,微軟 Azure AI Foundry計劃集成NVIDIA Llama Nemotron模型與NIM 微服務,以便開發能夠整合在Microsoft 365中的AI Agent。

SAP 已將NVIDIA Llama Nemotron 模型整合至其軟體平臺,借此強化 SAP Business AI 解決方案以及自家的 AI 助理 Joule。同時,SAP ABAP 程序語言模型還將運用NVIDIA NIM 和NVIDIA NeMo,進一步提高程序代碼的完成度。

軟體企業 ServiceNow,也正藉助NVIDIA Llama Nemotron 模型開發適用於各類產業的代理式 AI。

當越來越多的企業開始利用NVIDIA Llama Nemotron這台現代的“認知印刷機”,批量生產智能時代的“思想副本”,將智慧體的協作能力注入千萬行業時,我們或許正在見證康得所謂“啟蒙運動”的技術等價物——一場讓機器掙脫確定性牢籠、讓人類重新定義智慧本質的認知覺醒。而隱藏在token輸送量背後的真正革命,或許是技術從"工具隱喻"到"共生本體論"的範式轉移。

“AI 工廠的操作系統”:30倍吞吐優化 擊穿AI“成本牆” 

如果說NVIDIA Llama Nemotron 模型是構建代理式AI的“印刷機”,那麼號稱是“AI工廠的操作系統”的NVIDIA Dynamo開源庫便是能讓標準 Llama 模型在現有 Hopper 架構上性能翻倍的“加速器”。

隨著AI模型參數規模突破萬億級,推理成本已成為企業落地AI應用的“隱形天花板”。面對AI推理規模化部署的算力與成本挑戰,在發佈NVIDIA Llama Nemotron同期,NVIDIA再次放出“大招”,推出開源推理加速庫NVIDIA Dynamo,為行業提供了“性能與成本”兼得的方案。

NVIDIA Dynamo是NVIDIA Triton 推理伺服器的後續之作,這款全新的 AI 推理服務軟體,專為部署推理 AI 模型的 AI 工廠而打造,目標是最大化其 token收益。

具體而言,NVIDIA Dynamo作為一款精心打造的開源推理服務框架,以其獨特的優勢在大規模分散式環境中嶄露頭角。它具備高輸送量與低延遲的顯著特點,專門為生成式人工智慧與推理模型的部署而設計,是行業內不可多得的利器。

Dynamo 在技術創新方面有著諸多亮眼之處。在推理流程上,它創新性地將推理階段進行解耦,使整個推理過程更加靈活高效。在硬體資源利用上,通過動態調度 GPU,充分發揮了 GPU的強大算力,提升了資源的使用效率。

此外,Dynamo 還具備大語言模型(LLM)感知能力,能夠實現智慧的請求路由,讓數據的傳輸和處理更加合理有序。為了進一步提升性能,它加速了 GPU 間的異步數據傳輸,大大減少了數據傳輸的等待時間。同時,Dynamo 還實現了鍵值(KV)緩存的卸載,將緩存合理分配,減輕了系統的負擔。

從架構組成來看,NVIDIA Dynamo包含了NVIDIA Dynamo 規劃器、智慧路由器、分散式鍵值緩存管理員以及NVIDIA推理傳輸庫(NIXL)等核心元件。這些元件協同工作,共同發揮著重要作用。NVIDIA Dynamo 規劃器能夠對推理任務進行智能規劃,確保任務的高效執行。智慧路由器則負責精準的請求路由,優化數據傳輸路徑。分散式鍵值緩存管理器可以有效管理緩存,減少鍵值快取的重新計算,提升系統的回應速度。NVIDIA推理傳輸庫(NIXL)則為低延遲通信提供了有力保障,實現了 GPU 之間的快速數據交互。

通過這些優化措施,Dynamo 不僅能對 GPU 資源進行高效優化,還能將緩存卸載到經濟存儲中,在降低成本的同時,顯著提升了系統的性能和穩定性,為生成式人工智慧與推理模型的大規模應用提供了堅實的基礎。

實際測試數據顯示,NVIDIA Dynamo在NVIDIA Blackwell 上的推理優化將 DeepSeek-R1 上的輸送量提高了 30 倍。

值得期待的是,Dynamo的後續版本將通過 NVIDIA AI Enterprise軟體平臺的全面支援,這一支持保證了Dynamo在生產級環境中的安全性、穩定性。這種強大的後盾,必將讓Dynamo在企業級應用中發揮其極致的價值。

AI-Q Blueprint:“多智慧體端到端系統”創變智能協作工作模式

在突破AI推理的“成本牆”與算力瓶頸後,如何將分散的AI能力整合為跨系統協同的智慧體,成為企業解鎖AI代理系統,構建規模化生產力的關鍵一躍。

在這一次的GTC 2025上,NVIDIA更是發佈了全新的NVIDIA Blueprint - AI-Q,打造更智慧的代理式 AI 系統,為企業鋪就一條從“單點智慧”到“多智慧體端到端系統”智慧的躍遷之路。

Agent IQ工具包是AI-Q的“中樞神經”, 目前已經以開源的形式在GitHub發佈。

Agent IQ工具包可在智慧體、工具和數據之間實現無縫的異構連接。支援跨框架、跨工具的智慧體協作,集成LangGraph、CrewAI、微軟Semantic Kernel等主流開發框架和工具。企業可靈活調用現有系統(如Salesforce Agentforce、Atlassian Rovo)中的AI功能,無需重構即可實現任務流程貫通。

同時,Agent IQ工具包通過實時監控與性能分析,企業可追蹤代理系統的每個決策節點,識別效率瓶頸並優化資源分配。結合NVIDIA NIM與NVIDIA Dynamo開源庫,系統能動態調整算力分配,實現成本與性能的最佳平衡。

該工具包還具備多模態擴展能力,在整合NVIDIA Metropolis視覺服務藍圖後,Agent IQ可賦能AI代理融合視覺感知、語音交互與實時翻譯。

作為一款企業級AI代理系統的核心架構,AI-Q旨在打破傳統代理式孤島,通過集成NVIDIA的全棧技術加速複雜任務處理。其核心能力體現在技術融合、協作突破、行業適配等方面。

技術融合方面,AI-Q無縫整合NVIDIA加速計算、存儲平臺,以及Llama Nemotron等先進推理模型,為多模態數據處理與高效檢索提供支援。通過集成到NVIDIA NeMo Retriever與NIM微服務,可實現跨文本、圖像等多類型數據的精準提取與分析。

協作突破方面,AI-Q讓不同職能的AI代理(如數據分析、客戶服務、網路安全等)實現跨系統協作,通過構建“數位工作力”,將原本需要數天的任務響應縮短至幾小時。

行業適配上,AI-Q支援企業快速搭建定製化代理系統。例如,全球支付巨頭Visa利用其分析功能優化網路安全代理,自動化識別網路釣魚郵件,顯著提升威脅回應效率。

具體到落地實踐方面,通過AgentIQ的“即插即用”特性,企業無需從零開始構建AI代理生態。開發者可快速對接微軟Azure AI Agent Service、ServiceNow等平臺,將AI能力嵌入業務流。

企業IT團隊可藉助AI-Q快速部署“數字員工”,實現自動化運維、代碼生成與系統監控。市場、研發與客服部門的數據可通過AI代理自動流轉,減少人工協調成本。而在行業層面,在金融領域,Visa也驗證了AI代理在安全風控中的潛力;在製造領域,多模態的代理也可即時分析生產線數據,預測設備故障。

寫在最後

當NVIDIA Llama Nemotron在產業土壤中萌發根系,NVIDIA Dynamo將推理的能量轉化為躍遷的熵減引擎,NVIDIA AI-Q Blueprint連結智慧的思維鏈路,正標誌著AI產業從“暴力堆料”到“精準認知,最後形成端到端多智慧協作的工程化跨越。

正如DeepSeek-R1輸送量提升30倍,直接對沖了萬億參數時代的邊際收益塌縮難題。而這套“低數據依賴+高推理效率+智能協作”的“槓桿”,正在撬動產業智慧化“下一公里”的剛需。而開源生態與場景化推理能力的深度耦合,則意味著AI落地的下半場,將是“更精準的認知協作。

或許,在token與演算法編織的啟蒙運動中,我們窺見的,將是一場正在顛覆的技術範式。