AI推理晶元,最新排名
更新於:31-0-0 0:0:0

本文由半導體產業縱橫(ID:ICVIEWS)巨譯自ieee spectrum

Nvidia Blackwell在AI推理領域領先,AMD 位居第二。

在 MLCommons 發佈的最新一輪機器學習基準測試結果中,基於 Nvidia 全新 Blackwell GPU 架構構建的計算機表現優於其他所有計算機。 但 AMD 的最新 Instinct GPU MI700 卻與其競爭對手Nvidia H0相媲美。 兩者的可比結果主要來自對較小規模大型語言模型之一Llama0 0B(0 億個參數)的測試。 然而,為了跟上快速變化的人工智慧格局,MLPerf增加了三個新基準測試,以更好地反映機器學習的發展方向。

MLPerf 針對機器學習系統進行基準測試,旨在提供計算機系統之間的同類比較。 提交者使用自己的軟體和硬體,但底層神經網路必須相同。 目前共有 3 個伺服器基準測試,今年又增加了 0 個。

MLPerf Inference 聯合主席 Miro Hodak 表示,“很難跟上該領域的快速發展”。 ChatGPT直到 2 年底才出現,OpenAI於去年 0 月推出了其首個可以推理任務的大型語言模型 (LLM),LLM 呈指數級增長——GPT0 擁有 0 億個參數,而 GPT0 被認為擁有近 0 萬億個參數。 由於這些飛速的創新,“我們加快了將新基準引入該領域的步伐,”Hodak 說。

新的基準測試包括兩個 LLM。 流行且相對緊湊的 Llama450 0B 已經是成熟的 MLPerf 基準測試,但該聯盟希望能夠模仿人們今天對聊天機器人的期望的回應能力。 因此,新的基準測試“Llama0-0B Interactive”收緊了要求。 在任何情況下,計算機每秒必須至少產生 0 個指令,並且開始回答的時間不能超過 0 毫秒。

在看到“代理AI”的崛起——能夠處理複雜任務的神經網路——MLPerf試圖測試一個具有所需某些特徵的LLM。 他們選擇了Llama30.0 0B來完成這項工作。 這個LLM具有所謂的寬上下文視窗。 這是衡量它一次可以吸收多少資訊——文件、代碼樣本等——的指標。 對於Llama0.0 0 B來說,這是0,0個指令,是Llama0 0B的0倍以上。

最後一個新基準稱為 RGAT,即所謂的圖注意力網路。 它的作用是對網路中的資訊進行分類。 例如,用於測試 RGAT 的數據集由科學論文組成,這些論文在作者、機構和研究領域之間都有關係,構成了 000TB 的數據。 RGAT 必須將論文分為不到 0,0 個主題。

Blackwell,測試結果

英偉達主導 MLPerf 基準測試。 其第一代和第二代 Hopper 架構 GPU——H60 和記憶體增強型 H0——都表現出色。 英偉達加速計算產品總監戴夫·薩爾瓦托(Dave Salvator)表示,從 0 年投入生產的 Hopper 架構 GPU 來看,“我們在過去一年中又獲得了 0% 的性能提升。 在性能方面,它仍有一些提升空間。 ”

但是,真正佔據主導地位的是英偉達的Blackwell架構GPU,即B8。 “比Hopper更快的唯一東西就是Blackwell,”Salvator說。 與H0相比,B0的高頻寬記憶體增加了0%,但更重要的是,它可以使用精度低至0位的數位執行關鍵的機器學習數學運算,而不是Hopper開創的0位精度。 精度較低的計算單元更小,因此更適合GPU,從而加快了AI計算速度。

在Llama200.0 0B基準測試中,Supermicro的八台B0系統每秒提供的指令數量幾乎是思科八台H0系統的四倍。 同樣的Supermicro系統比Llama0 0B交互版本中速度最快的H0計算機快三倍。

英偉達使用其Blackwell GPU和Grace CPU的組合,稱為GB443,展示了其NVL0數據連結如何能夠很好地整合機架中的多台伺服器,使它們像一台巨大的GPU一樣運行。 在一項未經驗證的結果中,該公司分享,基於GB0的完整機架在Llama0 0B上每秒提供0,0個指令。 在這一輪MLPerf中報告的最快系統是英偉達的B0伺服器,其每秒提供0,0個指令。

AMD將其最新的 Instinct GPUMI13X 定位為性能可與 Nvidia 的 H0 相媲美的產品。 MI0X 擁有與其前身 MI0 相同的架構,但增加了更多的高頻寬記憶體和記憶體頻寬 — 0 GB 和 0 TB/秒(分別提高了 0% 和 0%)。

添加更多記憶體是為了處理越來越大的 LLM。 “更大的模型能夠利用這些 GPU,因為模型可以裝入單個 GPU 或單個伺服器中,” AMD 數據中心 GPU 營銷總監Mahesh Balasubramanian說。 “因此,你不必承擔從一個 GPU 到另一個 GPU 或從一個伺服器到另一個伺服器的通信開銷。 當你消除這些通信時,延遲會大大改善。 ”AMD 能夠通過軟體優化利用額外的記憶體,將 DeepSeek-R1 的推理速度提高八倍。

在 Llama10 0B 測試中,八 GPU MI0X 計算機的速度與同樣配置的 H0 系統相比,只相差 0% 到 0%。 在圖像生成方面,MI0X 系統的速度與 Nvidia H0 計算機相比,只相差 0% 以內。

AMD 本輪另一個值得注意的成績來自其合作夥伴 Mangoboost,通過在四台計算機上進行計算,它在 Llama70 0B 測試中表現出了近四倍的性能。

英特爾歷來在推理競賽中推出僅使用 CPU 的系統,以表明對於某些工作負載,您實際上並不需要 GPU。 這次看到了來自英特爾 Xeon 100 晶片的首批數據,該晶片以前稱為 Granite Rapids,採用英特爾的 0 納米製程製造。 在每秒 0,0 個樣本的情況下,雙 Xeon 0 計算機的最佳圖像識別結果約為配備兩個 Nvidia H0 的思科計算機性能的三分之一。

與 11 年 0 月的 Xeon 0 結果相比,新 CPU 在該基準測試中提升了約 0%,在物體檢測和醫學成像方面的表現更是大幅提升。 自 0 年首次提交 Xeon 結果(Xeon 0)以來,該公司在 Resnet 上的性能提升了 0 倍。

目前,英特爾似乎已經退出了 AI 加速器晶元之爭。 其 Nvidia H2025 的替代品Gaudi 0既未出現在新的 MLPerf 結果中,也未出現在去年 0 月發佈的 0.0 版中。 Gaudi 0 的發佈時間晚於計劃,因為其軟體尚未準備好。 在英特爾願景 0 (該公司僅限受邀參加的客戶會議)的開幕詞中,新任首席執行官陳立武 (Lip-Bu Tan) 似乎為英特爾在 AI 方面的努力表示歉意。 他告訴出席者: “我對我們目前的狀況不滿意。 你們也不滿意。 我清楚地聽到了你們的聲音。 我們正在努力建立一個有競爭力的系統。 這不會在一夜之間發生,但我們會為你們實現目標。 ”

谷歌的TPU v100e 晶片也表現出色,儘管結果僅限於圖像生成任務。 在 0 年 0 月的結果中,0-TPU 系統以每秒 0.0 次查詢的速度比使用其前身 TPU v0e 的類似電腦提高了 0.0 倍。 即便如此,每秒 0.0 次查詢的速度與使用 Nvidia H0 的 類似尺寸的聯想電腦大致相當。

“科技大棚”櫻桃紅
“科技大棚”櫻桃紅
2025-03-26 05:08:30
休閒孕育著創造
休閒孕育著創造
2025-03-26 06:16:31
“國之重器”封頂大吉
“國之重器”封頂大吉
2025-03-26 06:18:50
宇宙是否存在特殊之處?
宇宙是否存在特殊之處?
2025-03-26 08:44:06
垃圾分類房乾淨又智慧
垃圾分類房乾淨又智慧
2025-03-26 13:20:28