Together AI 和 Agentica 的研究人員發佈了 DeepCoder-14B,這是一個新的程式設計模型,其性能可與 OpenAI 的 o3-mini 等領先的專有模型相媲美。
該模型基於 DeepSeek-R1 構建,為將高性能代碼生成和推理能力集成到實際應用中提供了更大的靈活性。重要的是,研究團隊已完全開源了模型、訓練數據、代碼、日誌和系統優化,這可以説明研究人員改進工作並加速進展。
小巧但功能強大的程式設計能力
研究團隊的實驗表明,DeepCoder-14B 在多個具有挑戰性的程式設計基準測試中表現出色,包括 LiveCodeBench (LCB)、Codeforces 和 HumanEval+。
研究人員在描述該模型的博客文章中寫道:"我們的模型在所有程式設計基準測試中都表現出色...可與 o3-mini (low) 和 o1 的性能相媲美。"
有趣的是,儘管主要針對程式設計任務進行訓練,該模型在數學推理方面也有所提升,在 AIME 2024 基準測試中得分為 73.8%,比其基礎模型 (DeepSeek-R1-Distill-Qwen-14B) 提高了 4.1%。這表明通過代碼強化學習開發的推理技能可以有效地推廣到其他領域。
最引人注目的是,僅用 140 億參數就達到了這種性能水準。這使得 DeepCoder 比許多前沿模型更小,運行效率可能更高。
推動 DeepCoder 性能的創新
在開發模型的過程中,研究人員解決了使用強化學習 (RL) 訓練編碼模型的一些關鍵挑戰。
第一個挑戰是整理訓練數據。強化學習需要可靠的獎勵信號來表明模型的輸出是正確的。正如研究人員指出的:"與數學領域不同——互聯網上有大量高品質、可驗證的數據——編碼領域相對缺乏此類數據。"
為了解決這個問題,DeepCoder 團隊實施了嚴格的流程,從不同數據集收集範例並對其進行有效性、複雜性和重複性的篩選。這個過程產生了 24,000 個高質量問題,為有效的 RL 訓練提供了堅實的基礎。
團隊還設計了一個簡單的獎勵函數,只有在生成的代碼在特定時間限制內通過所有採樣單元測試時才提供正向信號。結合高品質的訓練示例,這種以結果為導向的獎勵系統可以防止模型學習一些技巧,如為公開測試列印記憶的答案或僅針對簡單邊緣情況進行優化而不解決核心問題。
模型的核心訓練演算法基於群體相對策略優化 (GRPO),這是一種在 DeepSeek-R1 中非常成功的強化學習演算法。然而,團隊對演算法進行了多項修改,使其更加穩定,並允許模型在訓練時間延長時繼續改進。
最後,團隊逐步擴展了模型的上下文視窗,首先在較短的推理序列上進行訓練,然後逐漸增加長度。他們還開發了一種過濾方法,以避免在模型在解決困難提示時創建超出上下文限制的推理鏈時對其進行懲罰。
研究人員解釋了核心理念:"為了保持長上下文推理的同時實現高效訓練,我們引入了超長過濾...這種技術在訓練期間遮罩被截斷的序列,這樣模型就不會因為生成超出當前上下文限制的深思熟慮但冗長的輸出而受到懲罰。"
訓練從 16K 逐步擴展到 32K 上下文視窗,最終模型還能解決需要多達 64K tokens 的問題。
優化長上下文 RL 訓練
使用 RL 訓練大型模型,特別是在需要長序列生成(如編碼或複雜推理)的任務上,計算密集且速度慢。一個主要瓶頸是"採樣"步驟,模型在批處理中可能為每個示例生成數千個 tokens。回應長度的變化意味著某些回應比其他回應完成得晚得多,導致 GPU 閑置並減慢整個訓練迴圈。
為了加速這一過程,團隊開發了 verl-pipeline,這是對開源 verl 庫的優化擴展,用於人類反饋的強化學習 (RLHF)。他們稱之為"一次性流水線"的關鍵創新,重新安排了響應採樣和模型更新,以減少瓶頸和加速器空閒時間。
他們的實驗表明,與基準實現相比,一次性流水線為編碼 RL 任務提供了高達 2 倍的加速。這種優化對於在合理的時間範圍內訓練 DeepCoder (在 32 個 H100 上用時 2.5 周) 至關重要,現在作為 verl-pipeline 的一部分開源供社區使用和擴展。
企業影響
研究人員已在 GitHub 和 Hugging Face 上提供了訓練和運行 DeepCoder-14B 的所有資料,並採用寬鬆的許可證。
研究人員寫道:"通過完全共用我們的數據集、代碼和訓練方案,我們使社區能夠複製我們的工作,讓 RL 訓練對所有人都可以訪問。"
DeepCoder-14B 有力地展示了 AI 領域一個更廣泛、加速發展的趨勢:高性能且高效、開放訪問的模型的崛起。
對於企業界來說,這種轉變意味著更多選擇和更高的先進模型可訪問性。最前沿的性能不再僅僅是超大規模企業或願意支付高額 API 費用的企業的專屬領域。像 DeepCoder 這樣的模型可以使各種規模的組織都能利用複雜的代碼生成和推理,根據其特定需求定製解決方案,並在其環境中安全部署。
這一趨勢可以降低 AI 採用的門檻,培養一個更具競爭力和創新性的生態系統,通過開源協作推動進步。