阿裡發佈開源推理模型 QwQ-32B,支援消費級顯卡本地部署,有哪些技術亮點?
更新于:2025-03-25 23:32:43

Qwen終於發力了。

從基準測試上來看,32B的QwQ-32B效果明顯優於DeepSeek-R1-Distilled-Qwen-32B和DeepSeek-R1-Distilled-Llama-70B,可以接近DeepSeek-R1和o1-mini的水準。這裡的基準測試包括數學推理,程式設計競賽,通用能力,指令遵循以及函數調用等各個方面。特別地,QwQ-32B也整合了agent能力,使其能夠在使用工具和根據環境反饋調整推理的過程中進行批判性思考。

32B的模型(DeepSeek R1的啟動參數是37B,QwQ是dense模型,所以兩者推理激活參數差不多)能達到這個效果,我稱之為逆天了,而且32B模型經過量化後,可以直接跑在本地消費級顯卡上,這意味本地就可以部署了性能比堅o-mini的推理模型。有個大膽的猜想,對於推理模型,其核心是依賴test-time compute time scaling law,是不是小模型增加推理時間,或者說思考時間,是不是就足夠達到很強的推理能力了。也許,o1-mini和o3-mimi的參數量也很小。。

在訓練方法上,QwQ-32B包含三個階段,先是一個冷啟動,這裏猜測類似DeepSeek-R1-Zero和Kimi k1.5一樣先用少量帶思維鏈的數據微調模型Qwen2.5-32B。然後是進行面向數學和程式設計任務的強化學習,這裏的強化學習方法也是採用基於結果的獎勵,而且獎勵模型也是基於規則,具體來說,對於數學問題採用一個準確性驗證器來確保最終解決方案的正確性,對於程式設計問題採用代碼執行伺服器來評估生成的代碼是否成功通過預定義的測試用例。這個階段的強化學習主要是提升模型在數學和程式設計這兩個強推理任務上的性能。最後是一個通用能力的強化學習,這個階段應該除了推理任務,還增加了其它通用任務,此時獎勵函數除了基於規則的驗證器還包含通用獎勵模型。這個階段的強化學習訓練只需少量的步驟,就能提升其他通用能力的表現,例如指令遵循、與人類偏好的對齊以及代理性能,但是在數學和程式設計方面沒有顯著的性能下降。

訓練方法上和DeepSeek-R1有點區別,QwQ-32B更像是在DeepSeek-R1-Zero之後增加了一個通用的強化學習。而DeepSeek-R1只包含SFT和強化學習兩個階段,SFT階段用DeepSeek-R1-Zero合成的推理任務數據並混入高品質的通用任務數據來微調DeepSeek V3 Base,而後面的強化學習階段也是包含推理和通用兩個方面。

最後放一些實測的效果:

初步看,效果還不錯,有點期待後面更大的模型Qwen2.5-Max-QwQ了。(Qwen2.5-Plus是32B的Qwen2.5?)

當然,也期待DeepSeek R2以及R2-Lite。