商湯最新強推理模型用來糾作業、比價格?掌門人徐立:我何以執念“百姓日用”
更新于:2025-04-14 08:08:27

“夫人輔導孩子作業,常抱怨大模型‘拍照搜題’只給出答案,卻講不出錯在哪兒。”

4月10日,商湯技術交流日,商湯科技董事長兼CEO徐立在上臺演講前45分鐘接受記者專訪,卻尤為家常地探討起大模型能否説明“百姓日用”,如教學輔導、購物比價等。

“過去談人工智慧,從城市治理到探索宇宙本源,敘事巨集大。但隨著模型通用性越來越強,我發現它更應解決生活中的細分場景。”徐立說。

專訪後,他正式發佈商湯全新升級的“日日新SenseNova V6”(下稱日日新V6)。該大模型體系展示的,正是商湯領先的多模態推理能力執著於生活瑣碎並實現價值閉環的可能。

徐立發佈日日新V6

跨模態“增智”

預計2028年,語言模型將耗盡人類文本數據。而圖靈獎得主認為,純粹的語言模型難以完整表達人類智慧。

因為,大量蘊藏於圖像、視頻乃至3D等其他模態中的知識,同樣是補充人類智慧的核心要素。好比人類學習不可能僅限於文本,探物理幾何、悟武林秘笈,都須藉助其他模態的數據。

人類悟武林秘笈須藉助其他模態的數據

那麼,人類跨模態的增智路徑是否也適用於大模型?

徐立把猜想化為行動。商湯11年前就以電腦視覺起家。去年底,商湯嘗試做融合模型,灌入多模態數據3個月後,發現模型的文本推理能力提升50%以上,多模態推理進步更大,階段性成果即為日日新V6。

儘管只修煉了3個月,日日新V6依舊不凡。此前,V6在家長圈試用時,一位成都的教師家屬寫來感謝信,原因在於,他妻子再不用熬夜手動總結學生作業的錯誤點——模型不但能判題,還一語中的隱藏在解題步驟中的錯誤根源,如一元一次方程裡學生每次移項都忘了換符號等。

徐立又展示了多個電商平臺上同類抽紙的促銷截圖,圖片佈局、顯示打折的位置、價格、包裝規格等差異很大。日日新V6死磕每張抽紙均價,結合品質等其他因素后給出了最優方案建議。

日日新V6死磕每張抽紙均價

小試牛刀的日日新V6還引來保險巨頭關注。將醫療保險理賠材料交給V6審核,其中的亂開藥、亂檢查、材料缺失或邏輯漏洞等,均被揪出。

如果思路打開,長劇剪輯、遊戲解說、商鋪運營,這些百姓日用場景,都能託付給多模態融合大模型來推理和執行。

具身智慧是徐立尤其看好的高價值場景。他認為,多模態模型技術能融合語音、文字、圖像、視頻等多種交互方式,讓機器人的服務更自然、有溫度。事實上,銀河、傅利葉等國內頭部機器人公司已成為商湯重要客戶。

傅利葉機器人是商湯重要客戶

拼技術和成本

據全球權威評測,日日新V6的多模態推理能力對標OpenAI o1,數據分析能力大幅領先GPT-4o。V6體系還涵蓋國內首個支援10分鐘中長視頻深度解析的大模型,對標的是谷歌複雜推理混合大模型Gemini 2.5。

這些亮眼實力背後,必有硬核技術加持,包括多模態長思維鏈合成技術、多模態混合增強學習、長視頻統一表徵和動態壓縮技術等。

日日新V6的多模態推理能力對標OpenAI o1,數據分析能力大幅領先GPT-4o

上述不明覺厲的技術,旨在對齊各模態數據,並突破強推理、強交互、長記憶三大能力,讓大模型像人類一樣思考交互,甚至理解言外之意。

比如,面對四張描繪“烏龜羨慕長頸鹿脖子長”的連環畫,日日新V6能完整講述故事,並在結尾升華為“長頸鹿有它的優勢,但你也有你的價值”。

“我們不過是訓練了它3個月,投入了數百B(Billion,即十億)數據,就已有如此成效。接下去我們會持續構造強化學習演算法,期待下半年出現多模態模型的‘湧現’能力。”徐立憧憬道。

但他明白,圖片、視頻等模態數據較之於文本,token(自然語言處理最小單元)長度有數百倍之差。因此,多模態模型巔峰出道的另一大挑戰,在於將模型訓練和推理性能做到極致,邁過算力供給成本生死線。

徐立透露,訓練方面,商湯採用自動化多維並行等策略,顯著提升了算力集群的訓練效率,每秒處理token數達1600+,在未做專項優化情況下,該效率已優於DeepSeek的官方成績。

這意味著,商湯模型的訓推成本已擊穿業界最低。這個讓同行羨慕的性價比,源自商湯在業內少見的“AI基礎設施(大型設備)-大模型(日日新)-應用三位一體”戰略,可實現算力與模型雙向聯合優化。這一核心優勢極大築高了商湯的護城河。

穿越歷史週期

2017年完勝柯潔的阿爾法狗,代表著人工智慧1.0,執行的是特定任務。以2022年底生成式人工智慧ChatGPT為分水嶺,AI跨入2.0階段,旨在成為通用任務大師。

商湯成立於2014年,“AI 1.0、1.5、2.0,我們全經歷了。”徐立說得雲淡風輕。

殊不知,無數1.0“前浪”早已在沙灘。而DeepSeek等AI 2.0時代的代表,幾乎都創立於2022年後。

11歲的民企商湯,能堅韌地穿越歷史週期,這關乎技術,也關乎眼光和戰略。

比如,商湯臨港AIDC是亞洲最大智算中心之一,其謀劃始於2018年。ChatGPT引發全球AI算力激增需求還是4年後的事。

商湯臨港AIDC

當年,商湯已在考慮用一個通用模型來覆蓋多個場景,以解決每一個AI落地場景都需獨立部署演算法、數據,以及“人堆人”等不可持續難題。但模型越通用,對算力要求越高。在遍尋不著市場上可大規模互聯的AI算力集群后,商湯索性自建。

多年來,外界看不懂大裝置派何用場,不明白商湯竟還每年數十億元往裡砸錢,關於“商湯巨虧”的議論不止,但徐立“不響”。

直到2023年商湯財報公佈,人們恍然大悟。這年,商湯生成式AI收入達12億元,是商湯成立以來最快超10億元體量的新業務。該業務2024年更錄得24億元,在集團中的收入佔比已躍升至64%。

眼下,當徐立預判原生多模態模型將走向世界舞臺中央,並決意再度大舉投入時,如何平衡投入與財報業績間關係又需要戰略。

商湯打法有二。

一是把偏向未來的場景化的東西往外放。徐立介紹,商湯去年底完成了“1+X”結構調整,1為核心業務,即生成式AI及視覺AI;X指垂直領域生態,包括智能汽車“絕影”、智慧醫療等。各生態企業設立獨立的CEO,可獨立融資。這樣的放手,旨在讓“1”更專注。而那些被放出去獨立奔跑的小將也很爭氣。今年以來,AI零售商湯善惠完成A輪融資,商湯醫療則完成過億元Pre-A輪融資。

打法之二,“綁著硬體做收入”。商湯是目前國內市場排名前三的雲服務廠商,致力於成為最懂算力的大模型服務商,以及最懂大模型的算力服務商。“我們的推理效率普遍較同行高出15%至25%。儘管我們的算力硬體並非全國最多,但省出的15%至25%對客戶而言就是利潤,這是客戶選擇商湯的很大動力。”徐立說。

商湯致力於成為最懂算力的大模型服務商,以及最懂大模型的算力服務商

他坦言,AI的許多新認知往往是反共識的,行業中充滿了打臉時刻。比如DeepSeek從基模直接上RL(大規模強化學習),而沒有走業界曾奉為真理的基模、SFT(監督微調)、RL三步法。

同樣,曾仰望星空的徐立,而今將泰州學派創始人王艮主張的“百姓日用即道”掛在嘴邊。敢於反覆運算認知和持續自我更新,這大概也是商湯始終浪尖弄潮之道。

徐立認為,AI之道,在於百姓之日用