IT之家 4 月 12 日消息,位元組跳動於 4 月 8 日發佈博文,其 Seed 研究團隊推出 VAPO 強化學習訓練框架,目標提升大型語言模型在複雜、冗長任務中的推理能力。
現有挑戰
在大型語言模型(LLM)的強化學習(RL)訓練中,價值導向方法(Value-based reinforcement learning methods)因能精確追溯每個動作對後續回報的影響,展現出巨大潛力。然而,應用於長鏈式推理(CoT)任務時,價值模型面臨三大挑戰。
首先,價值模型初始化會引入偏差;其次,傳統方法難以適應複雜任務中的序列長度差異;最後,驗證任務中獎勵信號稀疏,優化過程面臨探索與利用的權衡,這些問題限制了價值導向方法的實際效果。
VAPO 簡介
位元組跳動最新推出的 VAPO 框架全稱為 Value Augmented Proximal Policy Optimizationd(增強價值的近端政策優化),基於 PPO 框架,通過三項創新技術應對上述挑戰。
首先,VAPO 模型構建了細緻的價值訓練框架,增強模型對複雜任務的理解。其次,引入長度自適應廣義優勢估計(GAE)機制,能根據回應長度動態調整參數,優化長短序列的訓練效果。最後,VAPO 整合了多項先前研究技術,形成協同增效的系統。
在不依賴特定監督微調(SFT)數據的情況下,Qwen2.5-32B 模型通過 VAPO 優化后,在 AIME24 基準測試中將得分從 5 分提升至 60.4 分,超越 DeepSeek R1 的 47 分,超過此前 SOTA 方式 DAPO(50 分)10 分,僅用 60% 的更新步驟即達成業界領先。
相較於傳統 Proximal Policy Optimization(PPO)演算法,VAPO 改進了數學推理能力,訓練曲線更為平滑,優化過程更穩定。
測試顯示,歸因於其價值模型提供的細粒度信號,VAPO 在長序列任務中表現出色,得分增長更快。儘管後期訓練熵值降低可能限制探索,VAPO 通過平衡設計確保了穩定性和可重複性。
VAPO 的成功源於其綜合優化設計。消融研究驗證了七項技術的有效性:價值預訓練防止崩潰,解耦 GAE 支援長回答優化,自適應 GAE 平衡短長回答,剪裁策略鼓勵探索,詞級損失增加長回答權重,正例語言模型損失提升 6 分,分組採樣貢獻 5 分。
這些改進使 VAPO 在探索與利用間找到最佳平衡,顯著優於無價值導向的 GRPO 和 DAPO 方法。VAPO 不僅提升了數學推理能力,還為 LLM 在複雜推理任務中的應用提供了新方向。