3月24日,針對媒體對螞蟻百靈大模型訓練成本的報導,螞蟻集團方面回應介面新聞稱,螞蟻針對不同晶元持續調優,以降低AI應用成本,目前取得了一定的進展,也會逐步通過開源分享。
此前有報導稱,螞蟻集團正使用中國製造的半導體來開發AI模型訓練技術,這將使成本降低20%。知情人士稱,螞蟻集團使用了包括來自阿裡巴巴和華為的晶元,採用混合專家(MoE)機器學習方式來訓練模型。他們表示,螞蟻集團獲得了與採用英偉達H800等晶元訓練相似的結果。
其中一位知情人士稱,螞蟻集團仍在使用英偉達的產品進行人工智慧開發,但目前其最新模型主要依賴於包括AMD產品和中國晶元在內的替代產品。
另據鈦媒體報導,近日,螞蟻集團CTO、平臺技術事業群總裁何征宇帶領Ling Team團隊,利用AI Infra技術,開發了兩個百靈系列開源MoE模型Ling-Lite 和 Ling-Plus,前者參數規模168億,Plus基座模型參數規模高達2900億,相比之下,AI行業估計GPT-4.5參數量1.8萬億,DeepSeek-R1參數規模達6710億。
該技術成果論文《每一個FLOP都至關重要:無需高級GPU即可擴展3000億參數混合專家LING大模型》已在預印版Arxiv平台上發表。
除了自研性能領先的大模型以外,該技術論文最大的突破在於提出了一系列創新方法,以提升資源受限環境下AI開發的效率與可及性。實驗表明,其3000億參數的MoE大模型可在使用國產GPU的低性能設備上完成高效訓練,性能與完全使用英偉達晶片、同規模的稠密模型及MoE模型相當。
作為國內較早佈局AI大模型的廠商,螞蟻自研的百靈大模型2023年已通過備案,重點佈局在生活服務、金融服務、醫療健康等場景的應用。