在本周的 GPU 技術大會 (GTC) 上,Nvidia 的 Blackwell Ultra 以及即將推出的 Vera 和 Rubin CPU 和 GPU 成為了討論的焦點。但是這次年度開發者盛會最重要的公告之一可能並非晶元,而是一個名為 Dynamo 的軟體框架,它旨在解決大規模 AI 推理的挑戰。
在 GTC 舞臺上宣佈的 Dynamo 被 CEO Jensen Huang 描述為"AI 工廠的操作系統",並被比作引發工業革命的現實世界中的發電機。"發電機是啟動上一次工業革命的第一個工具,"這位首席執行官說。"能源的工業革命——水進來,電出去。"
從本質上來說,這個開源推理套件旨在更好地優化推理引擎,如 TensorRT LLM、SGLang 和 vLLM,以便在大量 GPU 上盡可能快速高效地運行。
正如我們之前討論過的,從模型中更快、更便宜地輸出一個個 token,用戶體驗就會更好。
推理比表面看起來更難
從高層次看,LLM 輸出性能可以分為兩大類:預填充 (Prefill) 和解碼 (Decode)。預填充取決於 GPU 的浮點矩陣數學加速器處理輸入提示的速度。提示越長——比如一個摘要任務——這通常需要更長的時間。
另一方面,解碼是大多數人與 LLM 性能相關聯的部分,它等同於 GPU 能夠多快地生成對使用者提示的實際 token 回應。
只要你的 GPU 有足夠的記憶體來容納模型,解碼性能通常是記憶體速度和你生成的 token 數量的函數。一個記憶體頻寬為 8TB/s 的 GPU 將比一個 3.35TB/s 的 GPU 快兩倍多地輸出 token。
當你開始考慮為更多人提供更大的模型,以及更長的輸入和輸出序列(如你可能在 AI 研究助手或推理模型中看到的)時,事情開始變得複雜。
大型模型通常分佈在多個 GPU 上,而實現這一點的方式可能對性能和輸送量產生重大影響,這是 Huang 在他的主題演講中詳細討論的內容。
從 Nvidia CEO Jensen Huang 主題演講的這張幻燈片可以看出,根據模型分佈方式的不同,推理性能可能有很大差異。該圖表顯示了單個使用者的每秒 token 數與每兆瓦總體每秒 token 數之間的關係... 點擊放大
"在帕累托前沿下有數百萬個點,我們可以用來配置數據中心。我們可以以許多不同的方式並行化、拆分工作並分片工作,"他說。
他的意思是,根據模型的並行方式,你可能能夠服務數百萬併發使用者,但每個使用者只有 10 個 token/秒。同時,另一種組合可能只能處理幾千個併發請求,但能在眨眼間生成數百個 token。
據 Huang 表示,如果你能找出在這條曲線上的哪個點,你的工作負載能提供理想的個體性能組合,同時也能實現最大可能的輸送量,那麼你就能為你的服務收取溢價,同時也能降低運營成本。我們想像這正是至少一些 LLM 供應商在將其生成式應用和服務擴展到越來越多客戶時所面臨的平衡挑戰。
啟動 Dynamo
據我們瞭解,在性能和輸送量之間找到這種平衡點是 Dynamo 提供的關鍵能力之一。
除了為使用者提供關於什麼是專家、流水線或張量並行的理想組合的見解外,Dynamo 還將預填充和解碼分離到不同的加速器上。
根據 Nvidia 的說法,Dynamo 中的 GPU 規劃器會根據需求確定應該有多少加速器專用於預填充和解碼。
然而,Dynamo 不僅僅是一個 GPU 分析器。該框架還包括提示路由功能,它可以識別並將重疊的請求引導到特定的 GPU 組,以最大化鍵值 (KV) 緩存命中的可能性。
如果你不熟悉,KV 緩存代表模型在任何給定時間的狀態。因此,如果多個用戶在短時間內詢問類似的問題,模型可以從這個緩存中提取資訊,而不必一次又一次地重新計算模型狀態。
除了智慧路由器外,Dynamo 還具有低延遲通信庫,用於加速 GPU 到 GPU 的數據流,以及記憶體管理子系統,負責將 KV 緩存數據從 HBM 推送或拉取到系統記憶體或冷存儲,以最大化回應性並最小化等待時間。
對於運行 Llama 模型的基於 Hopper 的系統,Nvidia 聲稱 Dynamo 可以有效地將推理性能提高一倍。同時,對於更大的 Blackwell NVL72 系統,GPU 巨頭聲稱啟用該框架后,DeepSeek-R1 比 Hopper 有 30 倍的優勢。
廣泛相容性
雖然 Dynamo 顯然針對 Nvidia 的硬體和軟體棧進行了調優,但與它所取代的 Triton 推理伺服器一樣,該框架旨在與流行的模型服務軟體庫集成,如 vLLM、PyTorch 和 SGLang。
這意味著,如果你正在使用包含多個 AMD 或 Intel 加速器以及 Nvidia GPU 的異構計算環境,你不需要認證和維護另一個推理引擎,而是可以繼續使用 vLLM 或 SGLang(如果你已經在使用這些)。
顯然,Dynamo 不會與 AMD 或 Intel 硬體一起工作,但它將在任何 Nvidia GPU 上運行,追溯到 Ampere 架構。因此,如果你仍在使用一堆 A100,你仍然可以從 Nvidia 的新 AI 操作系統中受益。
Nvidia 已經在 GitHub 上發佈了使用 Dynamo 的指南,並將提供該框架作為容器鏡像——或稱為 NIM——以便於部署。(R)