為什麼李飛飛團隊經常cue通義千問?
更新于:2025-04-12 12:36:02

作者|summer郵箱|huangxiaoyi@pingwest.com

Qwen 3還未發佈,但已發佈的Qwen系列含金量還在上升。

2個月前,李飛飛團隊基於Qwen2.5-32B-Instruct 模型,以不到50美元的成本訓練出新模型 S1-32B,取得了與 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型數學及編碼能力相當的效果。如今,他們的視線再次投向了這個國產模型。

在李飛飛聯合領導的斯坦福大學以人為本人工智慧研究所(Stanford HAI)最新發佈的《2025年人工智慧指數報告》(Artificial Intelligence Index Report 2025)中,Qwen系列再度引人注目。

作為人工智慧最權威的資源之一,AI Index已經發佈了八版,隨著人工智慧對社會、經濟和全球治理的影響力不斷加強,今年的報告也成為迄今為止最為全面的版本。其中,提到的一個重要觀察就是:中美頂級大模型的差距急劇縮小。

結合多個榜單來看,在MMLU測試中,中美性能差異從2023年底的17.5%,銳減至2024年底的0.3%;數學能力測試MATH差異從24.3%縮至1.6%;代碼能力評估HumanEval差異從31.6%降至僅3.7%;在Chatbot Arena平臺上,2024年1月的9.26%差距,到2025年2月僅剩1.70%。

而DS 和Qwen,就是中國模型性能提升的重要力量。

報告評選出的2024年重要大模型(Notable Models)中,國產大模型一共5家,分別是阿裡、位元組、DeepSeek、騰訊、智譜。其中,阿裡以6款模型入選,位列全球貢獻第三,僅次於谷歌和OpenAI的7款。

在多個維度的全球AI發展比較中,Qwen都佔據著重要位置,成為了繼DeepSeek之後被提及最多的中國AI模型。

不斷被Cue的Qwen,正在憑藉模型性能、開源力度、生態適配贏得更多的認可。

1

多個模型被評,Qwen扛起國產大旗

該報告由Research and Development、Technical Performance、Responsible Al、Economy、Science and Medicine、Policy and Governance、Education、Public Opinion十個核心章節構成,每個章節深入分析了AI領域的特定維度,並提煉出相應領域的關鍵趨勢結論。

總體來看,AI發展呈現出明顯的“更大、更多、更強”趨勢,但中美模型在技術路徑上卻展現出不同特點。

參數維度上,自2010 年代初以來,參數數量始終在急劇增加。這反映了大模型的架構日益複雜、數據可用性的提高、硬體的改進以及Scaling Law的有效性。特別是,相比學術和產學結合領域,大參數模型在工業領域尤為引人注目,顯示出工業界有著充足的可覆蓋訓練成本的資金實力。

隨著模型參數數量的增加,用於訓練 AI 系統的數據量也在暴漲。從時間線來看,引發了大型語言模型革命的Transformer模型於2017年發佈,使用了約 20 億個tokens進行訓練,2020年支撐原始 ChatGPT 模型之一的GPT-3,使用了3740億tokens,再到2024年Llama 3.3,使用了15萬億tokens。據Epoch AI統計,LLM訓練數據集大小約每8個月翻一番。

在報告列出的重要大模型中,Llama3.1-405B和Qwen2.5-72B、DeepSeek-V3訓練數據量幾乎並列第一。

在這一背景下,一個有趣的現象出現了:美國頂級AI模型的訓練計算資源通常遠高於中國模型。根據Epoch AI的數據,中國前10名模型的計算資源擴張速度約為每年3倍,顯著低於全球平均水準的每年5倍。

廣為人知的是DeepSeek V3的出圈,正是因為其極高的性能,但只需要遠少於許多領先LLM的計算資源。實際上,不止V3,國產模型中的Qwen2.5-72B、Doubao-pro都顯著低於Claude 3.5 Sonnet、Grok-2等等。

除此之外,Qwen2.5-Coder-32B、Qwen2.5-plus-1127的代碼領域,Qwen-Max-0428的複雜任務處理、Qwen2 (72B)的上下文能力,Qwen1.5 Chat (72B)的模型安全性領域,均獲得了關注。

有一個值得討論的模型還不夠,Qwen有一堆。

1

曾經Qwen和Llama二分的天下,現在是Qwen的了?

比起冰冷的數據說明,開發者堆Qwen的偏愛來得更早更直接。

李飛飛團隊基於Qwen模型複刻R1的成員之一Niklas也曾在社交平台上讚歎:“Qwen is amazing!”

此外,在R1的複現方案裡,大部分都是基於Qwen的,包括simpleRL-reason、open-r1、tinyzero、oatzero、open-thought、logit-rl和Open-Reasoner-Zero等等。這一現象不僅體現了研究人員對Qwen基礎能力的高度認可,也從側面證明瞭其在推理能力上的優越性。

在更廣泛的開源社區中,Qwen系列模型幾乎佔據了熱門榜單前列,成為開發者的首選工具。截至目前,Qwen在全球的衍生模型數量已突破10萬,超越美國Llama成為世界第一開源大模型。

這一成就不僅體現在數量上,更反映在多樣性上。自2023年8月首次開源以來,阿裡通義實驗室已推出200多款模型,覆蓋了從基礎模型、對話模型到強化學習模型和多模態模型的全方位佈局,覆蓋從0.5B到110B等的“全尺寸”,幾乎囊括了所有可能的應用場景,獲得了企業端客戶的青睞。

“我們在各個場景都用到了Qwen系列的模型。”匯智智慧提到,按模型和業務的匹配程度劃分,“Qwen-Turbo作為性價比超高的模型,適用於構建使用量大的聊天助手;Qwen-Max最為旗艦產品,回答效果與能力突出,適用於B端商戶,提升服務品質;Qwen-QwQ用於推理場景,而且尺寸32B適用於企業的當地語系化部署;Qwen-VL和Qwen-Audio、Qwen-Omni識別多模態資訊,和用戶互動。”

特別是豐富的小尺寸模型選擇,為實際開發提供了極高的性價比方案。

“模型太大跑不動,也沒有必要,100B以下的模型在實際應用中更具優勢。比如QwQ-32B,對很多企業場景而言,已經夠用了,並且部署資源是DeepSeek R1的1/10。”一位中小企業技術人員提到。

年初,DeepSeek的出現,推動了市場需求的爆發和商業化落地的進程,但在實際場景中,Qwen的尺寸靈活性成為顯著優勢。“以前,企業端的模型市場基本是Qwen和Llama的天下,但Llama已經比不上Qwen了。"一位企業開發者說道。

模型尺寸的靈活選擇、基礎能力的可靠表現、生態工具的完善支援、企業級應用中的實際效果......這種偏好背後是多種因素的綜合考量,企業們在選擇或切換模型時,比起性能指標,更看重與業務場景的適配性和長期的反覆運算潛力。

而這恰恰是Qwen的優勢,開發者們正在用腳投票做出自己的選擇。

點個“愛心”,再走吧

Like

Share

Popular

Comment