近日,來自杭州的三家科技公司發佈的大模型拿下全球最大AI開源社區HuggingFace趨勢榜前三。
這三款模型分別是DeepSeek-v3、群核科技SpatialLM、通義千問Qwen2.5-Omni。
《每日經濟新聞》記者從阿裡雲方面瞭解到,Qwen2.5-Omni採用了通義團隊全新首創的Thinker-Talker雙核架構,Position Embedding (位置嵌入)融合音視頻技術,位置編碼演算法TMRoPE(Time-aligned Multimodal RoPE)。
雙核架構Thinker-Talker讓Qwen2.5-Omni擁有了人類的“大腦”和“發聲器”,形成了端到端的統一模型架構,實現了即時語義理解與語音生成的高效協同。
3月27日淩晨,阿裡巴巴發佈並開源首個端到端全模態大模型通義千問Qwen2.5-Omni-7B,可同時處理文字、圖像、音訊和視頻等多種輸入,並即時生成文字與自然語音合成輸出。
相較於動輒數千億參數的閉源大模型,Qwen2.5-Omni以7B的小尺寸讓全模態大模型在產業上的廣泛應用成為可能。即便在手機上,也能輕鬆部署和應用Qwen2.5-Omni模型。
而近期群核科技發佈的空間理解開源模型SpatialLM,登上全球最大AI開源社區HuggingFace趨勢榜第二位。
公開資料顯示,SpatialLM是群核科技自主研發的一款空間理解模型,該模型僅通過一段視頻即可生成物理正確的3D場景佈局。不同於傳統大語言模型,SpatialLM突破了對物理世界幾何與空間關係的理解局限,將在機器類人的空間認知和解析能力上發揮重大作用。
而據《每日經濟新聞》此前報導,3月24日,DeepSeek發佈了V3的一個小版本更新,版本號為V3-0324。雖然官方稱這隻是“小版本升級”,但實測能力接近V3.5版本,尤其在複雜邏輯和多模態理解上表現突出。
每日經濟新聞