多模態AI競爭之道在於百姓之日用 要解決“好用”而非“能用”落地瓶頸
更新于:2025-04-14 07:51:27

本文轉自:南方都市報

國產大模型競速升級,從“能力競賽”轉向“場景比拼”

多模態AI競爭之道在於百姓之日用 要解決“好用”而非“能用”落地瓶頸

  在通往通用人工智能(AGI)的路徑上,多模態正成為技術演進的關鍵節點。

  4月10日,南都灣財社記者獲悉,商湯科技在“2025技術交流日”上發佈了新一代大模型系列“日日新SenseNova V6”,涵蓋通用模型、推理模型、視頻理解模型及全模態交互模型,聚焦視覺、文本、語音等多模態能力的融合與落地。“AI之道,在於百姓之日用。”商湯集團董事長徐立在現場表示,隨著通用能力增強,大模型將逐步走入更多真實生活場景,因此要解決模型“好用”而非“能用”的落地瓶頸。徐立表示,今年以來,中國大模型的研發進展顯著提速,在多個維度已具備與海外同步發佈,甚至實現局部超越的能力。

  商湯新動作的背後,也折射出國內大模型競爭正從規模競賽轉向“推理+落地”雙重比拼。近一個月,百度“文心一言4.0”、位元組“豆包大模型”紛紛強化多模態佈局,MiniMax等創業公司也在語音、視頻理解上快速突破。業內普遍認為,隨著語音對話、視頻生成、具身智慧等新場景湧現,原生多模態架構將成為未來行業的技術主線。

  新路徑

  多模態“重構”大模型技術路徑

  在行業從“百模大戰”進入深水區之後,多模態正成為國產大模型廠商共同押注的新路徑。與過去追逐參數規模不同,如今模型的發展更強調結構設計、模態協同與實際應用的連接能力。以語言為中心的範式已難獨立承載通用智慧的需求,融合圖像、語音、視頻等多源資訊,成為邁向AGI的必要一環。

  “現在已經用完了互聯網上大部分的文本數據。”徐立在演講中指出,海量的圖像、視頻、三維等非文本模態中蘊藏著尚未被系統挖掘的知識寶藏。他強調:“從數據量來看,多模態是補充人類智慧的核心要素;從學習方法上,多模態也是效率更高的。”

  而在技術實現上,多模態融合並非模態簡單堆疊,而是涉及“原生架構”的深度設計難題。

  商湯科技聯合創始人林達華在接受南都灣財社等媒體採訪時表示,模型之間“加法式”的拼接會帶來模態之間能力的削弱,必須通過從底層架構打通各模態之間的聯繫,才能實現真正的融合。他提到,商湯從2023年中起就在攻克模態橋接技術,構建統一的“感知-推理”鏈條。

  不只商湯在推進融合架構的落地,百度、阿裡等廠商也在強調“多模態原生訓練”能力。

  百度文心大模型已在圖文理解、多圖推理等任務上開放測試,通義千問亦在視頻、音訊輸入的端到端處理上投入資源。新興玩家如Moonshot AI、智譜AI也相繼發佈包含圖像理解或視頻摘要功能的模型,爭奪“多模態AI”新高地。  

  新趨勢

  將構成“輕量模型+交互場景”新範式

  同時,落地場景正在反向塑造模型架構。商湯科技聯合創始人、大裝置事業群總裁楊帆指出,模型結構的變化往往是“被需求倒逼的”。在自動駕駛、車艙交互、虛擬客服等商用環境中,多模態不僅是性能指標,更關乎成本控制與回應速度。例如SenseNova V6系列中,輕量化的Omini模型專為視頻語音交互優化,延遲控制在500毫秒內,是“從業務中生長出來的技術”。

  多模態也在改變大模型訓練的邏輯。徐立指出,“規模化堆卡”的思路正在降溫,模型能力的增長更多依賴於思維鏈構建、數據精度優化與場景適配。他認為,“模型的成長方式可以是更有效的強化學習,而非簡單的token數量提升”。這種趨勢正促使國產廠商將更多精力投入“數據與結構”的系統優化。

  在業內看來,多模態正成為技術、商業和交互維度交匯的核心陣地。隨著硬體部署成本下降、智慧終端普及,面向語音、圖像、視頻的模型能力將逐步由雲端向端側延伸,構成“輕量模型+交互場景”的新範式。國產大模型廠商正試圖通過這一路徑,打破“強算力+大模型”壁壘,實現從科研展示走向真實使用的跨越。

  新挑戰

  落地為王,廠商競逐“最後一公里”

  隨著大模型從“能力競賽”轉向“場景比拼”,如何穿越從研發到應用的“最後一公里”,成為行業共同面臨的挑戰。一方面,多數廠商仍在探索“To C”的路徑;另一方面,“To B+To G”的場景成為當前最現實的突破口。

  徐立指出,大模型最終要“在真實的環境中解決那些日常煩瑣,但重要的行業需求”,這不僅是應用落地的核心,也是一家AI公司能否建立護城河的關鍵。

  商湯近年來持續推進“三位一體”(AI基礎設施、大模型、行業應用)戰略,是為打通這一鏈條。徐立認為,“當AI聚集了人類現有的大量平均水平的知識後,就能夠用觸類旁通的能力,為開放問題形成確定性的解決方案”。這意味著,模型的商業價值,往往取決於能否嵌入具體業務流程之中,成為“工具”而非“玩具”。

  林達華也強調,真正有生命力的Agent,必須落在活生生的場景里。他舉例稱,商湯為保險公司提供多模態模型服務,能夠從理賠資料中識別潛在騙保行為,“這不是demo,而是業務鏈條的一部分”,體現了“智慧體+行業知識”結合的實際價值。

  從行業整體來看,金融、教育、文旅、車載、政務等B端場景成為國產廠商主要試水地。百度將文心大模型嵌入政務熱線與金融客服系統,阿裡雲則主打財務分析與合同審核。新興玩家如MiniMax、智譜AI也在拓展企業知識管理與智慧問答等垂類場景,試圖建立“從模型到產品”的打包能力。

  大模型企業在商業化上的打法也愈加分化。一類聚焦“產品化”模型,以“智慧體+工具鏈”切入SaaS市場;另一類則強調“平臺化”能力,為其他開發者和行業夥伴提供底層模型和API介面。在林達華看來,這兩者並不衝突,但“唯有深入產業,才能形成數據飛輪和場景黏性”,這是國產大模型實現長效商業化的根基。

  “AI之道,在於百姓之日用。”徐立表示,從“炫技”走向“實用”,國產大模型能否真正進入尋常人家的日常,還需穿越技術與場景之間的灰色地帶。行業博弈的下半場,拼的不再是參數和榜單,而是理解現實世界、嵌入實際流程的能力。

  採寫:南都·灣財社記者 嚴兆鑫

  製圖:黃亞嵐(即夢AI)

“漁光互補”雙豐收
“漁光互補”雙豐收
2025-03-26 04:46:10
“腦比天恢巨集”
“腦比天恢巨集”
2025-03-26 04:49:39
“土蛋蛋”變形記
“土蛋蛋”變形記
2025-03-26 04:50:01