商湯 視覺中國 資料圖
AI(人工智慧)軟體公司商湯發佈新一代大模型,持續押注多模態和日常場景落地。
4月10日,商湯集團股份有限公司(商湯-W,0020.HK)在技術交流日上發佈新一代多模態大模型系列“日日新SenseNova V6”,以及AI基礎設施“商湯大裝置SenseCore 2.0”。商湯科技集團董事會執行主席兼CEO徐立在演講中表示,從技術層面來看,多模態模型是走向通用人工智慧(AGI)的必經之路;在場景落地方面,“AI之道在於百姓之日用”,隨著通用性的增強,AI將能夠走入更多人的日常生活。
徐立表示,多模態模型的發展和AGI的發展“畫上了約等號”。他解釋道,首先,純粹的語言模型難以真正地、完整地表達人類的智慧;其次,從數據角度看,多模態能夠補充互聯網上文本數據的不足,挖掘蘊藏在圖像、視頻等非文本數據中的知識:“從數據量來講,多模態是補充人類智慧的核心要素。而從學習方法上來講,(多模態)也是效率更高的。”
據介紹,通過構造多模態的強思維鏈數據和搭建多模態強化學習的語境,和去年發佈的日日新大模型5.0及5.5相比,日日新6.0在多模態方面表現更加出眾,並針對推理能力進行了強化。
為滿足不同場景的需要,日日新6.0包含若干版本。其中,原生多模態通用大模型SenseNova V6 Pro採用了6200億參數的混合專家(MoE)架構,SenseNova V6 Reasoner Pro在前者基礎上經過了多模態長思維鏈訓練和多模態增強學習,具有突出的多模態融合推理能力,在純文本和多模態推理任務上對標OpenAI的o1模型和谷歌的Gemini 2.0 Flash-thinking。
此外,該系列中還包括視頻理解模型SenseNova V6 Video和輕量級的全模態交互模型SenseNova V6 Omni:V6 Video支援長達10分鐘的視頻的完整輸入,能夠對視頻進行深入的理解、分析和推理;V6 Omni則支持即時交互但保持優秀的綜合性能,對標OpenAI的GPT 4o-mini。
近年來,商湯在生成式AI和多模態AI領域投入巨大。對此,商湯聯合創始人、執行董事及人工智慧基礎設施和大模型首席科學家林達華在接受澎湃新聞記者採訪時表示,這並不是單純的資源堆疊,而是基於商湯“三位一體(AI基礎設施-大模型-應用)”戰略的系統性規劃:“我們會從多個業務場景進行分析,針對如何打穿這些場景、形成高業務價值,凝練出最關鍵的技術能力,以此指導模型的反覆運算。”
林達華指出,Meta近期發佈的Llama 4、乃至OpenAI的GPT-4.5其實都未能展現出讓人非常驚豔的性能,從這些案例中可以看出,傳統的縮放法則(scaling law)逐漸進入了一個相對飽和的狀態。
但是,林達華認為,模型能力其實還有很多其他的成長方式,例如更長思維鏈的注入、更高效的增強學習。因此,比起算力,商湯現在更關注通過技術優化來提升模型效率:“對於我們的商業價值、對於模型的未來發展來說,商湯要找到投入產出的斜率最高的一條曲線,而不是去盲目地scale training(擴大訓練規模)。”
在主題演講中,徐立還在台上展現了諸多使用日日新6.0的日常案例,包括電商比價、輔導作業、剪輯視頻、整理用戶評價等等,突出模型在日常生活中的實用性。化用明代泰州學派代表人物王艮的名言“聖人之道,無異於百姓日用”,徐立表示,AI之“道”也是如此。
徐立進一步指出,商湯發展AI的目標便是“在真實的環境中解決那些日常煩瑣、但是重要的行業需求”:“當AI聚集了人類現有的大量平均水平的知識之後,它就能夠運用觸類旁通的能力,為開放問題形成一種真正意義上的確定性,完成從模型到客戶使用的最後一公里。”
在技術交流日上,商湯宣佈了與多家軟硬體企業的戰略簽約,其中包括具身智慧企業傅利葉。據介紹,基於商湯的SenseNova V6 Omni模型,傅利葉的機器人GRx系列可以通過融合圖像、視頻、語音和文本資訊理解環境,實現更生動、更智慧的人機互動體驗。
10日當天,商湯股價漲3.68%收於每股1.41港元,總市值522億港元。