ByteDance 推出全新推理型 AI 模型:Seed-Thinking-v1.5
更新于:2025-04-16 06:48:55

如今,TikTok 母公司位元組跳動也推出了一款推理 AI:啟思-v1.5!  最初始於 2024 年 9 月 OpenAI 發佈的 o1 模型宣告,但真正起飛則是 2025 年 1 月 DeepSeek R1 的推出。  

如今,似乎大多數主要 AI 模型供應商和訓練者都投入到了一個新的競賽中,目標是提供更好、更快、更便宜的“推理” AI 語言模型——也就是說,這些模型在回應人類使用者時可能會花費更長時間,但理想情況下能夠給出更好、更全面、更有“邏輯推理”能力的答案。這類模型通過執行“鏈式思考”,即在回答前反思自身結論並驗證其準確性,從而獲得優異表現。  

位元組跳動,這家中國網路媒體巨頭(TikTok 的母公司),最新加入這一行列,公佈併發佈了支撐即將推出大語言模型(LLM)啟思-v1.5 的技術論文。該模型旨在提升科學、技術、數學與工程(STEM)領域以及通用領域的推理性能。  

目前,該模型尚未提供下載或使用,其許可條款也尚未明確——無論它是專有/閉源、開源/免費供所有人使用和隨意修改,還是介於兩者之間。不過,技術論文中已經提供了一些值得提前瞭解的重要細節。  

基於日益流行的 Mixture-of-Experts (MoE) 架構構建  與 Meta 新的 Llama 4 和 Mistral 之前推出的 Mixtral 類似,啟思-v1.5 同樣採用了 Mixture-of-Experts (MoE) 架構。  

這種架構旨在提升模型效率,基本上將多個模型的能力整合到一起,每個模型專注於不同領域。在這種情況下,MoE 架構意味著啟思-v1.5 在任一時刻僅使用 2000 億參數中的 200 億。  

位元組跳動在其發佈於 GitHub 的技術論文中表示,啟思-v1.5 優先考慮結構化推理和深思熟慮的回答生成。  

測試結果幾乎不言自明:在眾多第三方基準測試中,啟思-v1.5 不僅超越了 DeepSeek R1,而且在推理性能上接近 Google 最新發佈的 Gemini 2.5 Pro 和 OpenAI 的 o3-mini-high reasoner。在 ARC-AGI 基準測試——這項被視為實現人工通用智慧(AI 的“聖杯”)目標的指標中,它甚至超越了上述兩種模型。按照 OpenAI 的定義,該模型在大多數經濟價值較高的任務中均表現優於人類。  

作為一種緊湊而功能強大的替代大型最先進模型的方案,啟思-v1.5 取得了具有競爭力的基準測試成績。它還引入了強化學習(RL)的創新、訓練數據策劃及 AI 基礎設施改進。  

性能基準與模型重點  啟思-v1.5 在一系列具有挑戰性的任務中展現出不俗表現:在 AIME 2024 上得分 86.7%,在 Codeforces 上的 pass@8 達到 55.0%,而在 GPQA 科學基準測試中得分 77.3%。這些成績使其在特定推理指標上接近甚至匹敵 OpenAI 的 o3-mini-high 與 Google 的 Gemini 2.5 Pro。  

在非推理任務中,通過人工偏好比較評估時,該模型勝率比 DeepSeek R1 高出 8.0%,這表明它的優勢不僅僅局限於邏輯或數學密集型挑戰。  

為應對 AIME 等標準基準測試日益趨同的情況,位元組跳動引入了 BeyondAIME —— 一項全新且更具挑戰性的數學基準測試,其精心策劃的問題旨在防止死記硬背,並更好地區分模型性能。BeyondAIME 與 Codeforces 的評測集預計將公開發佈,以支持未來的相關研究。  

數據策略  訓練數據在該模型開發過程中扮演了核心角色。針對監督性微調(SFT),團隊策劃了 400,000 個樣本,其中包括 300,000 個可驗證的問題(涵蓋 STEM、邏輯及程式設計任務)和 100,000 個不可驗證的問題,如創意寫作與角色扮演。  

對於強化學習訓練,數據被分為以下兩類:    可驗證問題:100,000 個經過嚴格篩選的 STEM 問題與邏輯謎題,這些問題均來源於精英競賽和專家評審並附有標準答案;    不可驗證任務:側重開放式提示的人類偏好數據集,通過成對獎勵模型進行評估。  

其中,STEM 數據主要依賴於高級數學,佔據問題集的 80% 以上;額外的邏輯數據則包括數獨和 24 點謎題等,其難度可根據模型進展靈活調整。  

強化學習方法  啟思-v1.5 的強化學習採用了定製的 actor-critic(VAPO)和 policy-gradient(DAPO)框架,這兩種框架均為解決強化學習訓練中的不穩定性問題而開發。這些技術有效減少了獎勵信號的稀疏性,並提升訓練穩定性,尤其在長鏈式思考(CoT)場景中表現尤為突出。  

獎勵模型在監督強化學習輸出中發揮了關鍵作用。位元組跳動推出了兩項重要工具:    Seed-Verifier:基於規則的大語言模型,用於檢查生成答案與參考答案在數學上是否等效;    Seed-Thinking-Verifier:基於逐步推理的評判器,旨在提升判斷一致性並防止獎勵作弊。  

這一兩層獎勵系統使評估既能應對簡單任務,也能細緻衡量複雜任務。  

基礎設施與擴展性  為了支援高效的大規模訓練,位元組跳動基於其 HybridFlow 框架構建了一個系統,執行由 Ray 集群承擔,同時訓練與推理過程共處一處以降低 GPU 空閒時間。  

Streaming Rollout System(SRS)是一項顯著創新,其將模型演進與運行時執行分離,通過異步管理跨模型版本的部分完成生成過程,從而加速了反覆運算速度。據稱,這種架構可實現最高達 3 倍的強化學習迴圈速度。  

此外,其他基礎設施技術還包括:    - 採用混合精度(FP8)以節省記憶體;    - 利用專家並行和內核自動調優來提高 MoE 效率;    - 通過 ByteCheckpoint 實現穩健且靈活的檢查點;    - 使用 AutoTuner 優化並行性及記憶體配置。  

人工評估與實際影響  為評估模型與以人為本的偏好之間的一致性,位元組跳動在多個領域進行了人工測試,包括創意寫作、人文學科知識及日常對話。  

在各個測試環節中,啟思-v1.5 始終優於 DeepSeek R1,這進一步證明瞭它對實際使用者需求的適用性。  

開發團隊指出,主要在可驗證任務上訓練的推理模型在創意領域同樣表現出較強的泛化能力,這一成果歸功於數學訓練工作流程中所體現的結構性和嚴謹性。  

這對技術領導、數據工程師和企業決策者意味著什麼  對於管理大語言模型全生命週期(從數據策劃到部署)的技術負責人來說,啟思-v1.5 提供了一個重新思考如何將推理能力整合到企業 AI 技術棧中的契機。  

其模組化的訓練流程不僅包括可驗證的推理數據集,還引入了多階段強化學習,特別吸引那些希望在擴展大語言模型開發同時保持精細控制的團隊。  

位元組跳動推出的 Seed-Verifier 和 Seed-Thinking-Verifier 可視為更值得信賴的獎勵建模機制,這在將模型部署於面向客戶或受監管環境時尤為關鍵。  

對於在緊迫截止日期和資源有限的條件下運行的團隊來說,啟思-v1.5 在強化學習下表現出的穩定性(得益於 VAPO 和動態採樣等創新)有望縮短反覆運算週期並簡化針對特定任務的微調流程。  

從編排和部署角度來看,該模型的混合基礎設施方法——包括 Streaming Rollout System (SRS) 和 FP8 優化支援——預示著訓練輸送量和硬體利用率將獲得顯著提升,這對於負責在雲端和本地系統中擴展大語言模型操作的工程師來說頗具價值。  

此外,啟思-v1.5 在訓練時採用了基於運行時動態調整獎勵反饋的機制,直接應對了管理異構數據流水線和在各領域保持一致性所帶來的挑戰。  

對於那些負責確保新工具可靠性、可重複性與持續集成的團隊而言,啟思-v1.5 的系統級設計可作為構建穩健多模態編排系統的藍圖。  

而對於數據工程專業人士來說,這種結構化訓練數據的方法——包括嚴格過濾、數據增強及專家驗證——進一步強化了數據質量作為模型性能倍增器的重要性,並可能激發更加有意識的數據集開發與驗證流程。  

未來展望  啟思-v1.5 是位元組跳動 Seed LLM Systems 團隊內部協作的成果,該團隊由吳永輝領導,長期 AI 貢獻者林海斌對此專案進行了公開展示。  

該專案還借鑒了此前的努力,如 Doubao 1.5 Pro,並融合了 RLHF 以及數據策劃中的共用技術。  

團隊計劃繼續改進強化學習技術,重點提升訓練效率及不可驗證任務的獎勵建模。他們還計劃公開 BeyondAIME 等內部基準,旨在推動以推理為重點的 AI 研究更廣泛的發展。