阿裡開源首個全模態大模型，將給產業帶來哪些機會？

更新于：2025-03-27 22:17:17

介面新聞記者 | 肖芳
介面新聞編輯 | 文姝琪

3月27日淩晨，阿裡巴巴發佈並開源首個端到端全模態大模型通義千問Qwen2.5-Omni，可同時處理文字、圖像、音訊和視頻等多種輸入，並即時生成文字與自然語音合成輸出。

目前，市場上的全模態大模型較為有限。在此之前，國內外主流科技公司只有OpenAI發佈過全模態大模型GPT-4o。GPT-4o的參數規模為200B，而Qwen2.5-Omni僅為7B，這一尺寸對於端側部署特別是手機本地部署十分友好。

在一系列同等規模的單模態模型權威基準測試中，Qwen2.5-Omni展現出了全球最強的全模態優異性能。其中，Hugging Face的測試顯示，Qwen2.5-Omni在語音理解、圖片理解、視頻理解、語音生成等領域的測評分數，均領先於專門的Qwen2-Audio以及Qwen2.5-VL模型，且語音生成測評分數（4.51）達到了與人類持平的能力。

據介面新聞瞭解，Qwen2.5-Omni在低參數規模情況下全模態性能表現優異的主要原因是技術的創新突破。Qwen2.5-Omni採用了通義團隊全新首創的Thinker-Talker雙核架構、Position Embedding（位置嵌入）融合音視頻技術、位置編碼演算法TMRoPE（Time-aligned Multimodal RoPE）。相比之下，GPT-4o的基礎仍然是Transformer架構，只是針對多模態數據進行了優化。

具體來講，Transformer架構是單一流式計算，採用自注意力機制，一次性處理整個輸入序列，不區分“思考”和“表達”，所有計算都在同一層次上完成，導致大模型在推理複雜問題時計算開銷較高。Thinker-Talker雙核架構區分“思考”和“表達”，Thinker負責深度推理、邏輯思維和複雜認知任，Talker負責將思考結果高效轉化為流暢的語言表達或其他輸出。Thinker進行多步推理，而Talker只需高效生成結果，從而優化計算效率。

在全新的技術架構下，這款全模態模型的交互能力又上了一個新的台階，不僅讓阿裡AI在C端（使用者）的應用多了幾分想像空間，也給智慧終端行業帶來了更多的想像空間。

以接近人類的多感官方式交互，還能感知情緒

介面新聞記者在Qwen Chat中體驗到了這款模型。在對話框中，使用者可選擇語音或者視頻通過和Qwen2.5-Omni進行交互。

記者輸入語音指令，要求Qwen2.5-Omni幫忙總結一篇文章的主要內容，它能通過語音的方式進行總結，說話的聲音有語調、語氣的變化，整體的交互感受是像和螢幕之外的另一個人進行語音電話。當記者要求Qwen2.5-Omni唱一首歌時，它目前還無法實現，但它的回復並不生硬：“哎呀，我還不會唱歌呢。你可以使用QQ音樂，上面有很多人唱歌。”

在播放歌曲《老男孩》的一個片段時，Qwen2.5-Omni能夠聽出來這是一段民謠曲風的音樂，還能聽出來這是C大調。同時，它還推薦了趙雷的《成都》、周杰倫的《七裡香》並詢問消費者是否喜歡。當記者用非常焦躁的語氣和它說話時，它不僅能感知到的情緒異常，還能像朋友一樣來開導稱不要把煩心事放在心上。

記者和它進行視頻通話時，它能通過視頻畫面中的窗戶和窗簾判斷消費者在室內，並以此為話題展開聊天。在多人的場景中，Qwen2.5-Omni還能夠理解不同說話人的語音和視頻的對應關係，定位到不同說話人的穿著等狀態，判斷意識流視頻里的情緒，這是以往單一模態的模型和AI應用所不具備的能力。

體驗之後，介面新聞記者整體的感覺是，Qwen2.5-Omni在多模態方面的交互能力已經非常接近人類的交互方式，說話的音色和語氣、語調也更接近真人，在即時交互的過程中的延遲較小，基本感覺不到卡頓。和幾年前的智慧音箱相比，Qwen2.5-Omni不再只是單純的回復使用者給出的指令，還會主動詢問使用者問題，讓聊天變成一個可持續的過程。

除了日常的對話之外，介面新聞從一位阿裡雲內部人士處瞭解到，Qwen2.5-Omni還能處理更加複雜、專業的問題。比如，在醫療領域，診斷通常需要結合影像、病歷文本和患者的語言描述完成，Qwen2.5-Omni的多模態能力能夠滿足這些需求，相關醫療機構在使用大模型輔助診斷時，無需為不同模態任務部署獨立模型，降低開發和維護成本。

C端應用呼之欲出

Qwen2.5-Omni更接近人類的交互方式，且能感知到人的情緒，這讓此前被業界看好的AI陪伴應用有了規模化落地的空間。

據介面新聞瞭解，阿裡AI to C的應用也在嘗試這個方向。去年12月，阿裡旗下AI應用“通義”近期正式從阿裡雲分拆，併入阿裡智慧資訊事業群。調整后通義PC及App團隊與智慧搜索產品“誇克”平級，通義To C方向的產品經理以及相關的工程團隊，他們將一併調整至阿裡智慧資訊事業群。

介面新聞從一位阿裡智慧資訊事業群人士處瞭解到，架構調整之後，誇克和通義在定位上進行了區分，誇克主要解決使用者在學習工作場景中的問題，而通義主要解決使用者生活中的問題以及情感陪伴需求。

Qwen2.5-Omni發佈之後，底層模型能力已經能夠滿足使用者各種複雜的需求，通義團隊需要把產品打磨好來搶佔先機。

除此之外，Qwen2.5-Omni的小尺寸更方便智慧終端行業進行部署。在GPT-4o仍然保持閉源的情況下，Qwen2.5-Omni以寬鬆的Apache2.0協定開源，且阿裡雲百煉平臺提供API服務，所有人均可下載和商用。無論是手機、智慧音箱還是家電，都在尋求更好的使用者交互體驗，Qwen2.5-Omni的交互能力給了這些行業更多想像空間。