多模態AI競爭之道在於百姓之日用要解決“好用”而非“能用”落地瓶頸

更新于：2025-04-14 07:51:27

本文轉自：南方都市報

國產大模型競速升級，從“能力競賽”轉向“場景比拼”

　　在通往通用人工智能(AGI)的路徑上，多模態正成為技術演進的關鍵節點。

　　4月10日，南都灣財社記者獲悉，商湯科技在“2025技術交流日”上發佈了新一代大模型系列“日日新SenseNova　V6”，涵蓋通用模型、推理模型、視頻理解模型及全模態交互模型，聚焦視覺、文本、語音等多模態能力的融合與落地。“AI之道，在於百姓之日用。”商湯集團董事長徐立在現場表示，隨著通用能力增強，大模型將逐步走入更多真實生活場景，因此要解決模型“好用”而非“能用”的落地瓶頸。徐立表示，今年以來，中國大模型的研發進展顯著提速，在多個維度已具備與海外同步發佈，甚至實現局部超越的能力。

　　商湯新動作的背後，也折射出國內大模型競爭正從規模競賽轉向“推理+落地”雙重比拼。近一個月，百度“文心一言4.0”、位元組“豆包大模型”紛紛強化多模態佈局，MiniMax等創業公司也在語音、視頻理解上快速突破。業內普遍認為，隨著語音對話、視頻生成、具身智慧等新場景湧現，原生多模態架構將成為未來行業的技術主線。

　　新路徑

　　多模態“重構”大模型技術路徑

　　在行業從“百模大戰”進入深水區之後，多模態正成為國產大模型廠商共同押注的新路徑。與過去追逐參數規模不同，如今模型的發展更強調結構設計、模態協同與實際應用的連接能力。以語言為中心的範式已難獨立承載通用智慧的需求，融合圖像、語音、視頻等多源資訊，成為邁向AGI的必要一環。

　　“現在已經用完了互聯網上大部分的文本數據。”徐立在演講中指出，海量的圖像、視頻、三維等非文本模態中蘊藏著尚未被系統挖掘的知識寶藏。他強調:“從數據量來看，多模態是補充人類智慧的核心要素；從學習方法上，多模態也是效率更高的。”

　　而在技術實現上，多模態融合並非模態簡單堆疊，而是涉及“原生架構”的深度設計難題。

　　商湯科技聯合創始人林達華在接受南都灣財社等媒體採訪時表示，模型之間“加法式”的拼接會帶來模態之間能力的削弱，必須通過從底層架構打通各模態之間的聯繫，才能實現真正的融合。他提到，商湯從2023年中起就在攻克模態橋接技術，構建統一的“感知-推理”鏈條。

　　不只商湯在推進融合架構的落地，百度、阿裡等廠商也在強調“多模態原生訓練”能力。

　　百度文心大模型已在圖文理解、多圖推理等任務上開放測試，通義千問亦在視頻、音訊輸入的端到端處理上投入資源。新興玩家如Moonshot　AI、智譜AI也相繼發佈包含圖像理解或視頻摘要功能的模型，爭奪“多模態AI”新高地。　　

　　新趨勢

　　將構成“輕量模型+交互場景”新範式

　　同時，落地場景正在反向塑造模型架構。商湯科技聯合創始人、大裝置事業群總裁楊帆指出，模型結構的變化往往是“被需求倒逼的”。在自動駕駛、車艙交互、虛擬客服等商用環境中，多模態不僅是性能指標，更關乎成本控制與回應速度。例如SenseNova　V6系列中，輕量化的Omini模型專為視頻語音交互優化，延遲控制在500毫秒內，是“從業務中生長出來的技術”。

　　多模態也在改變大模型訓練的邏輯。徐立指出，“規模化堆卡”的思路正在降溫，模型能力的增長更多依賴於思維鏈構建、數據精度優化與場景適配。他認為，“模型的成長方式可以是更有效的強化學習，而非簡單的token數量提升”。這種趨勢正促使國產廠商將更多精力投入“數據與結構”的系統優化。

　　在業內看來，多模態正成為技術、商業和交互維度交匯的核心陣地。隨著硬體部署成本下降、智慧終端普及，面向語音、圖像、視頻的模型能力將逐步由雲端向端側延伸，構成“輕量模型+交互場景”的新範式。國產大模型廠商正試圖通過這一路徑，打破“強算力+大模型”壁壘，實現從科研展示走向真實使用的跨越。

　　新挑戰

　　落地為王，廠商競逐“最後一公里”

　　隨著大模型從“能力競賽”轉向“場景比拼”，如何穿越從研發到應用的“最後一公里”，成為行業共同面臨的挑戰。一方面，多數廠商仍在探索“To　C”的路徑；另一方面，“To　B+To　G”的場景成為當前最現實的突破口。

　　徐立指出，大模型最終要“在真實的環境中解決那些日常煩瑣，但重要的行業需求”，這不僅是應用落地的核心，也是一家AI公司能否建立護城河的關鍵。

　　商湯近年來持續推進“三位一體”(AI基礎設施、大模型、行業應用)戰略，是為打通這一鏈條。徐立認為，“當AI聚集了人類現有的大量平均水平的知識後，就能夠用觸類旁通的能力，為開放問題形成確定性的解決方案”。這意味著，模型的商業價值，往往取決於能否嵌入具體業務流程之中，成為“工具”而非“玩具”。

　　林達華也強調，真正有生命力的Agent，必須落在活生生的場景里。他舉例稱，商湯為保險公司提供多模態模型服務，能夠從理賠資料中識別潛在騙保行為，“這不是demo，而是業務鏈條的一部分”，體現了“智慧體+行業知識”結合的實際價值。

　　從行業整體來看，金融、教育、文旅、車載、政務等B端場景成為國產廠商主要試水地。百度將文心大模型嵌入政務熱線與金融客服系統，阿裡雲則主打財務分析與合同審核。新興玩家如MiniMax、智譜AI也在拓展企業知識管理與智慧問答等垂類場景，試圖建立“從模型到產品”的打包能力。

　　大模型企業在商業化上的打法也愈加分化。一類聚焦“產品化”模型，以“智慧體+工具鏈”切入SaaS市場；另一類則強調“平臺化”能力，為其他開發者和行業夥伴提供底層模型和API介面。在林達華看來，這兩者並不衝突，但“唯有深入產業，才能形成數據飛輪和場景黏性”，這是國產大模型實現長效商業化的根基。

　　“AI之道，在於百姓之日用。”徐立表示，從“炫技”走向“實用”，國產大模型能否真正進入尋常人家的日常，還需穿越技術與場景之間的灰色地帶。行業博弈的下半場，拼的不再是參數和榜單，而是理解現實世界、嵌入實際流程的能力。

　　採寫:南都·灣財社記者嚴兆鑫