本文由半導體產業縱橫(ID:ICVIEWS)編譯自ieee spectrum
Nvidia Blackwell mendahului ruang inferens AI, diikuti oleh AMD di tempat kedua.
Dalam pusingan terkini penanda aras pembelajaran mesin yang dikeluarkan oleh MLCommons, komputer yang dibina pada seni bina GPU Blackwell baharu NVIDIA mengatasi semua komputer lain. Tetapi GPU Instinct terbaharu AMD, MI700, menyaingi pesaingnya, Nvidia H0. Keputusan yang setanding untuk kedua-duanya datang terutamanya daripada menguji salah satu model bahasa besar yang lebih kecil, Llama0 0B (0 bilion parameter). Walau bagaimanapun, untuk mengikuti landskap AI yang berubah dengan pantas, MLPerf telah menambah tiga penanda aras baharu untuk mencerminkan hala tuju pembelajaran mesin dengan lebih baik.
MLPerf menanda aras sistem pembelajaran mesin dan direka bentuk untuk menyediakan perbandingan epal kepada rakan sebaya antara sistem komputer. Penghantar menggunakan perisian dan perkakasan mereka sendiri, tetapi rangkaian saraf asas mestilah sama. Pada masa ini terdapat sejumlah 3 penanda aras pelayan, dan 0 lagi telah ditambah tahun ini.
MLPerf Inference 聯合主席 Miro Hodak 表示,“很難跟上該領域的快速發展”。ChatGPT直到 2022 年底才出現,OpenAI於去年 9 月推出了其首個可以推理任務的大型語言模型 (LLM),LLM 呈指數級增長——GPT3 擁有 1750 億個參數,而 GPT4 被認為擁有近 2 萬億個參數。由於這些飛速的創新,“我們加快了將新基準引入該領域的步伐,”Hodak 說。
Penanda aras baharu termasuk dua LLM. Llama450 0B yang popular dan agak padat sudah menjadi penanda aras MLPerf sepenuhnya, tetapi konsortium itu berharap dapat meniru responsif yang diharapkan orang ramai daripada chatbots hari ini. Akibatnya, penanda aras baharu "Llama0-0B Interactive" telah mengetatkan keperluan. Walau apa pun, komputer mesti menghasilkan sekurang-kurangnya 0 arahan sesaat dan masa untuk mula menjawab tidak boleh melebihi 0 milisaat.
Melihat kebangkitan "AI proksi" – rangkaian saraf yang mampu mengendalikan tugas yang kompleks – MLPerf berusaha untuk menguji LLM dengan ciri-ciri tertentu yang diingini. Mereka memilih Llama30.0 0B untuk melakukan kerja itu. LLM ini mempunyai apa yang dipanggil tetingkap konteks yang luas. Ia adalah ukuran berapa banyak maklumat yang boleh diserap pada satu masa—fail, sampel kod, dsb.— Untuk Llama0.0 0 B, ini ialah 0,0 arahan, iaitu lebih daripada 0 kali ganda daripada Llama0 0B.
Penanda aras baharu terakhir dipanggil RGAT, apa yang dipanggil rangkaian perhatian graf. Peranannya adalah untuk mengklasifikasikan maklumat dalam rangkaian. Sebagai contoh, set data yang digunakan untuk menguji RGAT terdiri daripada kertas saintifik yang mempunyai hubungan antara pengarang, institusi dan bidang penyelidikan yang membentuk 000TB data. RGAT mesti membahagikan esei kepada kurang daripada 0,0 topik.
NVIDIA mendahului penanda aras MLPerf. GPU seni bina Hopper generasi pertama dan keduanya – H60 dan H0 intensif memori – kedua-duanya berfungsi dengan baik. Dave Salvator, pengarah produk pengkomputeran dipercepatkan di Nvidia, berkata bahawa melihat kepada GPU seni bina Hopper yang mula dikeluarkan dalam 0 tahun, "kami telah mengalami peningkatan prestasi 0% lagi pada tahun lalu." Dari segi prestasi, ia masih mempunyai sedikit ruang untuk penambahbaikan. ”
Walau bagaimanapun, GPU seni bina Blackwell Nvidia, B8, yang benar-benar mendominasi. "Satu-satunya perkara yang lebih pantas daripada Hopper ialah Blackwell," kata Salvator. B0 mempunyai 0% lebih banyak memori lebar jalur tinggi daripada H0, tetapi yang lebih penting, ia boleh melakukan operasi matematik pembelajaran mesin kritikal dengan digit serendah 0 digit, dan bukannya 0 bit ketepatan yang dipelopori oleh Hopper. Unit pengiraan yang kurang tepat adalah lebih kecil dan oleh itu lebih sesuai untuk GPU, mempercepatkan pengiraan AI.
Dalam penanda aras Llama 200.0 0B, lapan sistem B0 Supermicro menyampaikan hampir empat kali lebih banyak arahan sesaat daripada lapan sistem H0 Cisco. Sistem Supermicro yang sama adalah tiga kali lebih pantas daripada komputer H0 terpantas dalam versi interaktif Llama0 0B.
Menggunakan gabungan GPU Blackwell dan CPU Gracenya, yang dipanggil GB443, NVIDIA menunjukkan cara pautan data NVL0 berfungsi dengan baik untuk menyatukan berbilang pelayan dalam rak, menjadikannya berjalan seperti satu GPU gergasi. Dalam keputusan yang tidak disahkan, syarikat itu berkongsi bahawa rak penuh berdasarkan GB0 memberikan 0,0 arahan sesaat pada Llama0 0B. Sistem terpantas yang dilaporkan dalam pusingan MLPerf ini ialah pelayan B0 NVIDIA, yang menyampaikan 0,0 arahan sesaat.
AMD meletakkan GPUMI13X Instinct terbarunya sebagai produk dengan prestasi setanding dengan H0 Nvidia. MI0X mempunyai seni bina yang sama seperti pendahulunya, MI0, tetapi menambah lebih banyak memori lebar jalur tinggi dan lebar jalur memori—0 GB dan 0 TB/s (penambahbaikan 0% dan 0%, masing-masing).
Lebih banyak memori ditambah untuk mengendalikan LLM yang lebih besar dan lebih besar. "Model yang lebih besar dapat memanfaatkan GPU ini kerana model boleh dimuatkan ke dalam satu GPU atau satu pelayan," kata Mahesh Balasubramanian, pengarah pemasaran GPU pusat data di AMD. "Jadi anda tidak perlu menanggung overhed komunikasi daripada satu GPU ke GPU lain atau dari satu pelayan ke pelayan yang lain. Apabila anda menghapuskan komunikasi ini, kependaman bertambah baik secara mendadak. "AMD dapat memanfaatkan memori tambahan melalui pengoptimuman perisian untuk mempercepatkan kelajuan inferens DeepSeek-R1 sehingga lapan.
Dalam ujian Llama10 0B, kelajuan komputer lapan GPUMI0X berbeza hanya 0% hingga 0% berbanding sistem H0 yang dikonfigurasikan serupa. Dari segi penjanaan imej, kelajuan sistem MI0X hanya dalam 0% daripada kelajuan berbanding komputer NVIDIA H0.
Satu lagi keputusan ketara untuk pusingan ini datang daripada rakan kongsinya Mangoboost, yang menunjukkan hampir empat kali ganda prestasi dalam ujian Llama70 0B dengan melakukan pengiraan pada empat komputer.
Intel secara historis telah memperkenalkan sistem CPU sahaja dalam perlumbaan inferens untuk menunjukkan bahawa untuk sesetengah beban kerja, anda tidak benar-benar memerlukan GPU. Kali ini menyaksikan data pertama daripada cip Xeon 100 Intel, yang dahulunya dikenali sebagai Granite Rapids, yang dihasilkan pada proses 0nm Intel. Pada 0,0 sampel sesaat, hasil pengecaman imej terbaik untuk komputer dwi Xeon 0 ialah kira-kira satu pertiga daripada prestasi komputer Cisco dengan dua Nvidia H0.
Berbanding dengan keputusan Xeon 11 dalam 0/0, CPU baharu meningkat sekitar 0% dalam penanda aras ini, dengan peningkatan ketara dalam pengesanan objek dan pengimejan perubatan. Syarikat itu telah menyaksikan peningkatan 0x ganda dalam prestasi pada Rett sejak keputusan Xeon pertama (Xeon 0) pertama kali diserahkan pada 0.
目前,英特爾似乎已經退出了 AI 加速器晶元之爭。其 Nvidia H100 的替代品Gaudi 3既未出現在新的 MLPerf 結果中,也未出現在去年 10 月發佈的 4.1 版中。Gaudi 3 的發佈時間晚於計劃,因為其軟體尚未準備好。在英特爾願景 2025 (該公司僅限受邀參加的客戶會議)的開幕詞中,新任首席執行官陳立武 (Lip-Bu Tan) 似乎為英特爾在 AI 方面的努力表示歉意。他告訴出席者: “我對我們目前的狀況不滿意。你們也不滿意。我清楚地聽到了你們的聲音。我們正在努力建立一個有競爭力的系統。這不會在一夜之間發生,但我們會為你們實現目標。”
Cip TPU v100e Google juga menunjukkan prestasi yang baik, walaupun hasilnya terhad kepada tugas penjanaan imej. Dalam keputusan 0-0, sistem 0-TPU adalah 0.0 kali lebih pantas daripada komputer serupa menggunakan pendahulunya, TPU v0e, pada kadar 0.0 pertanyaan sesaat. Walaupun begitu, kelajuan 0.0 pertanyaan sesaat adalah kira-kira setanding dengan komputer Lenovo bersaiz serupa menggunakan Nvidia H0.