介面新聞記者 | 肖芳
介面新聞編輯 | 文姝琪
3月27日淩晨,阿裡巴巴發佈並開源首個端到端全模態大模型通義千問Qwen2.5-Omni,可同時處理文字、圖像、音訊和視頻等多種輸入,並即時生成文字與自然語音合成輸出。
目前,市場上的全模態大模型較為有限。在此之前,國內外主流科技公司只有OpenAI發佈過全模態大模型GPT-4o。GPT-4o的參數規模為200B,而Qwen2.5-Omni僅為7B,這一尺寸對於端側部署特別是手機本地部署十分友好。
在一系列同等規模的單模態模型權威基準測試中,Qwen2.5-Omni展現出了全球最強的全模態優異性能。其中,Hugging Face的測試顯示,Qwen2.5-Omni在語音理解、圖片理解、視頻理解、語音生成等領域的測評分數,均領先於專門的Qwen2-Audio以及Qwen2.5-VL模型,且語音生成測評分數(4.51)達到了與人類持平的能力。
據介面新聞瞭解,Qwen2.5-Omni在低參數規模情況下全模態性能表現優異的主要原因是技術的創新突破。Qwen2.5-Omni採用了通義團隊全新首創的Thinker-Talker雙核架構、Position Embedding(位置嵌入)融合音視頻技術、位置編碼演算法TMRoPE(Time-aligned Multimodal RoPE)。相比之下,GPT-4o的基礎仍然是Transformer架構,只是針對多模態數據進行了優化。
具體來講,Transformer架構是單一流式計算,採用自注意力機制,一次性處理整個輸入序列,不區分“思考”和“表達”,所有計算都在同一層次上完成,導致大模型在推理複雜問題時計算開銷較高。Thinker-Talker雙核架構區分“思考”和“表達”,Thinker負責深度推理、邏輯思維和複雜認知任,Talker負責將思考結果高效轉化為流暢的語言表達或其他輸出。Thinker進行多步推理,而Talker只需高效生成結果,從而優化計算效率。
在全新的技術架構下,這款全模態模型的交互能力又上了一個新的台階,不僅讓阿裡AI在C端(使用者)的應用多了幾分想像空間,也給智慧終端行業帶來了更多的想像空間。
介面新聞記者在Qwen Chat中體驗到了這款模型。在對話框中,使用者可選擇語音或者視頻通過和Qwen2.5-Omni進行交互。
記者輸入語音指令,要求Qwen2.5-Omni幫忙總結一篇文章的主要內容,它能通過語音的方式進行總結,說話的聲音有語調、語氣的變化,整體的交互感受是像和螢幕之外的另一個人進行語音電話。當記者要求Qwen2.5-Omni唱一首歌時,它目前還無法實現,但它的回復並不生硬:“哎呀,我還不會唱歌呢。你可以使用QQ音樂,上面有很多人唱歌。”
在播放歌曲《老男孩》的一個片段時,Qwen2.5-Omni能夠聽出來這是一段民謠曲風的音樂,還能聽出來這是C大調。同時,它還推薦了趙雷的《成都》、周杰倫的《七裡香》並詢問消費者是否喜歡。當記者用非常焦躁的語氣和它說話時,它不僅能感知到的情緒異常,還能像朋友一樣來開導稱不要把煩心事放在心上。
記者和它進行視頻通話時,它能通過視頻畫面中的窗戶和窗簾判斷消費者在室內,並以此為話題展開聊天。在多人的場景中,Qwen2.5-Omni還能夠理解不同說話人的語音和視頻的對應關係,定位到不同說話人的穿著等狀態,判斷意識流視頻里的情緒,這是以往單一模態的模型和AI應用所不具備的能力。
體驗之後,介面新聞記者整體的感覺是,Qwen2.5-Omni在多模態方面的交互能力已經非常接近人類的交互方式,說話的音色和語氣、語調也更接近真人,在即時交互的過程中的延遲較小,基本感覺不到卡頓。和幾年前的智慧音箱相比,Qwen2.5-Omni不再只是單純的回復使用者給出的指令,還會主動詢問使用者問題,讓聊天變成一個可持續的過程。
除了日常的對話之外,介面新聞從一位阿裡雲內部人士處瞭解到,Qwen2.5-Omni還能處理更加複雜、專業的問題。比如,在醫療領域,診斷通常需要結合影像、病歷文本和患者的語言描述完成,Qwen2.5-Omni的多模態能力能夠滿足這些需求,相關醫療機構在使用大模型輔助診斷時,無需為不同模態任務部署獨立模型,降低開發和維護成本。
Qwen2.5-Omni更接近人類的交互方式,且能感知到人的情緒,這讓此前被業界看好的AI陪伴應用有了規模化落地的空間。
據介面新聞瞭解,阿裡AI to C的應用也在嘗試這個方向。去年12月,阿裡旗下AI應用“通義”近期正式從阿裡雲分拆,併入阿裡智慧資訊事業群。調整后通義PC及App團隊與智慧搜索產品“誇克”平級,通義To C方向的產品經理以及相關的工程團隊,他們將一併調整至阿裡智慧資訊事業群。
介面新聞從一位阿裡智慧資訊事業群人士處瞭解到,架構調整之後,誇克和通義在定位上進行了區分,誇克主要解決使用者在學習工作場景中的問題,而通義主要解決使用者生活中的問題以及情感陪伴需求。
Qwen2.5-Omni發佈之後,底層模型能力已經能夠滿足使用者各種複雜的需求,通義團隊需要把產品打磨好來搶佔先機。
除此之外,Qwen2.5-Omni的小尺寸更方便智慧終端行業進行部署。在GPT-4o仍然保持閉源的情況下,Qwen2.5-Omni以寬鬆的Apache2.0協定開源,且阿裡雲百煉平臺提供API服務,所有人均可下載和商用。無論是手機、智慧音箱還是家電,都在尋求更好的使用者交互體驗,Qwen2.5-Omni的交互能力給了這些行業更多想像空間。
比如,目前老闆電器等廚房電器企業正在探索通過大模型把菜譜推薦、智慧烹飪、個人化交互整合到全流程服務中,打造更智慧的廚房體驗。全模態大模型的核心優勢在於能夠理解文本、語音、圖像、視頻、感測器數據等多種模態的數據,從而提供更加自然、精準的烹飪輔助。
Qwen2.5-Omni具備視覺、聽覺、語音等多感官交互能力,在家庭機器人領域有著較為廣闊的應用前景。它不僅能完成日常任務,還能更智慧地理解使用者需求、實時適應環境,並提供更加人性化的互動。尤其在家庭陪伴和護理等場景中,識別老人摔倒等異常情況以及識別使用者低落情緒都是非常關鍵的底層能力。
此前,阿裡巴巴聯合創始人、董事局主席蔡崇信已確認蘋果和阿裡巴巴將合作為中國iPhone用戶開發AI功能。實際上,OPPO、vivo、榮耀、傳音等國內超90%的手機品牌都已接入千問。Qwen2.5-Omni的出現或許也會給這些品牌的手機帶來新的使用者交互體驗。
阿裡在AI大模型上的佈局上顯示出了非常大的決心。阿裡巴巴集團CEO吳泳銘此前宣佈,未來三年,阿裡將投入超過3800億元,用於建設雲和AI硬體基礎設施,總額超過過去十年總和。
AI也讓資本市場重估阿裡的價值。2025年以來,阿裡巴巴美股股價已上漲55.96%。