消息稱螞蟻集團 AI 訓練取得突破,使用國產晶片成本降低 20%,若屬實,會對行業帶來哪些影響?
更新于:2025-03-27 21:05:17

掃了下paper, 簡單寫下......

他們列了A800、H800, 華子的npu, 還有兩個100多T算力不知道是哪家的

首先他們在這些device集群上做訓練, 需要解決穩定性、性能、loss對齊問題

他們開發DLRover、Diagnose Engine、XPUTimer一套可觀測系統(我也嘗試開發這樣一套系統,但是沒用優雅的方法,XPUTimer我很早就看到,原理就是實現plugin so wrapper了cuda各種熱點函數,通過注入event 收集事件及time cost,同時通過共用記憶體transfer出去,然後存儲、分析、可視化)幫助診斷異常錯誤、straggler問題、演算法異常等, tracing agent + collector + web ui + alert的設計, 參考prometheus等系統, 這塊算是比較專業的infra做法, 但是kernel異步特性, 做好非常難. 一整套訓練系統需要在多種硬體、軟體、框架集群上跑訓練, 需要一套與訓練解藕的可觀測性系統, 幫助診斷分析、性能對比、loss對齊等, 這樣一套可觀測體系是非常有必要的, 而業界這塊的工作是比較少的, 最多就是wandb觀察下metrics, 用torch.profiler+ nsys去分析性能, 訓練過程中有效的可觀測還是很少見的,因為可觀測要盡可能無損。

然後引入edit解決了多卡不同步問題, 什麼分散式存儲都是湊字數, 不是關鍵因素

關於模型: 採用moe架構, 減少了 intermediate size, 增加expert數量, 可能因為國產device 算力偏低, 且不穩定, 可以減少mlp計算量, 這裡容易引發降頻

其他的就沒啥可說的, 整個paper估計就是在國產晶元踩坑史(應該不容易, 因為之前有人給我po出ascend集群內部一堆問題讓我看, 但是我對ascend不感興趣, 也沒怎麼關注, 據說是挺痛苦的, 因為數據量太大了), 對於大模型/infra(非國產)並不具備太多借鑒意義.

總結: 推理用國產卡已經很普遍的, 做訓練且成本可控還是有意義的, 只是想在上面做各種算子、框架的優化基本很難, 因為軟體公司不具備這樣的能力和精力, 談突破就很離譜, 只是螞蟻願意投入人力、金錢在國產晶片上試錯, 值得鼓勵, 據內部人士說, 華子投入了上百號人駐場, 而且華子半價給他們的910B, 華子也需要專業的team證明其npu的能力, 尤其LLM的門檻是很低的, 至於成本這是本糊塗帳, 在算子/框架方面, 螞蟻沒做也無法做差異化的優化, 國產顯卡跟nv顯卡差距除了生態、ai研發試錯, 還有良品率、功耗、穩定、後期維護成本等, 20%更多是夥同某廠做PR