DeepSeek前腳發新論文，奧特曼立馬跟上：GPT-5就在幾個月後啊_港資訊

DeepSeek前腳發新論文，奧特曼立馬跟上：GPT-5就在幾個月後啊

紅板報

更新于：2025-04-06 04:04:40

金磊發自凹非寺量子位 | 公眾號 QbitAI

有點意思。

這不DeepSeek前腳剛剛上新了一篇關於推理時Scaling Law的論文嘛，引得大家紛紛聯想是不是R2馬上要來了。

然鵝……奧特曼這邊卻發了一條“變卦”的消息：

計劃改變：我們可能在幾周之後先發佈o3和o4-mini。

至於大家翹首以盼的GPT-5，奧特曼表示：

將在幾個月之後，而且效果會比我們最初設想的還要好。

至於原因，奧特曼也做出了解釋。

大概意思就是，順利整合所有內容比他們想像的要困難得多，希望確保有足夠的能力來支援預期的需求。

咱就是說啊，現在真的是DeepSeek這邊一有點聲響，OpenAI那邊就得有點動作來緊跟一下了。

DeepSeek新論文

在這個小插曲之後呢，我們還是把目光聚焦在DeepSeek這篇新論文身上。

這篇論文的名字叫做Inference-Time Scaling for Generalist Reward Modeling，由DeepSeek和清華大學共同提出。

這篇研究核心的亮點，就是提出了一個叫做SPCT方法（Self-Principled Critique Tuning）的方法——

首次提出通過在線強化學習（RL）優化原則日本的批評生成，實現推理時擴展。

之所以要做這麼一項研究，是因為之前大家用獎勵模型（Reward Model, RM）在RL中為大語言模型生成獎勵信號。

但現有的RM在通用領域卻表現出受限的情況，尤其是在面對複雜、多樣化任務的時候。

因此，就出現了兩個關鍵挑戰點。

一個是通用RM需要靈活性（支援單回應、多回應評分）和準確性（跨領域高質量獎勵）。

另一個則是現有RM（如標量RM、半標量RM）在推理時擴展性差，無法通過增加計算資源顯著提升性能。

為了解決這個問題，DeepSeek和清華大學團隊便提出了SPCT。

整體來看，這項研究主要包含三大核心技術點。

首先就是生成式獎勵模型（GRM）。

它採用點式生成獎勵模型（Pointwise GRM），通過生成文字形式的獎勵（如critiques）而非單一標量值，支援靈活輸入（單回應、多回應）和推理時擴展。

其中，C是生成的critique，f從中提取分數。

接下來，是關鍵的SPCT了。

主要是通過在線強化學習（RL）訓練GRM，使其能動態生成高質量的原則（principles）和批判（critiques），從而提升獎勵品質。

整體來看，SPCT是一個兩階段的過程，它們分別是：

拒絕式微調（Rejective Fine-Tuning）

：冷啟動階段，通過採樣和拒絕策略生成初始數據。

基於規則的在線RL

：使用規則化獎勵函數優化原則和批判的生成，鼓勵模型區分最佳回應。

在此基礎上，便是第三個技術點，即推理時擴展技術。

先是通過多次採樣生成多樣化的原則和批判，投票聚合最終獎勵，擴展獎勵空間。

再訓練一個輔助模型過濾低質量採樣，進一步提升擴展效果。

基於上述的方法，團隊也對結果做了一波測試。

在Reward Bench、PPE、RMB等基準上，DeepSeek-GRM-27B顯著優於基線方法（如LLM-as-a-Judge、標量RM），且通過推理時擴展（32次採樣）性能進一步提升（如Reward Bench準確率從86.0%提升至90.4%）。

總而言之，這篇研究證明瞭推理時擴展在通用RM中的有效性，性能超越訓練時擴展。

One More Thing

奧特曼發佈“變卦”消息之外，還不忘給自己帶一波貨，稱有兩本他親自參與的書即將發佈：

一本是Keach Hagey寫的關於奧特曼本人的書

一本是Ashlee Vance寫的關於OpenAI的書

論文位址：https://arxiv.org/abs/2504.02495

參考連結：[1]https://x.com/sama/status/1908167621624856998[2]https://techcrunch.com/2025/04/04/openai-says-itll-release-o3-after-all-delays-gpt-5/[3]https://x.com/sama/status/1908163013192069460

一鍵三連「點讚」「轉發」「小心心」

歡迎在評論區留下你的想法！

拆解霸王茶姬招股書：6億杯伯牙絕弦、11億激進行銷和出海新故事

拆解霸王茶姬招股書：6億杯伯牙絕弦、11億激進行銷和出海新故事

2025-03-27 22:35:54

5位寶馬高管加入小米陣營！

5位寶馬高管加入小米陣營！

2025-03-27 22:36:24

生成式AI掀起職業革命，哪些工作的門檻越來越低？

生成式AI掀起職業革命，哪些工作的門檻越來越低？

2025-03-27 23:09:37

Reve AI 推出圖片生成模型 Reve Image

Reve AI 推出圖片生成模型 Reve Image

2025-03-27 23:10:04

海倫司困局：年輕人 “錢包瘦身”，小酒館如何破局

海倫司困局：年輕人 “錢包瘦身”，小酒館如何破局

2025-03-27 23:19:54

CHANEL推出2025手袋，攜手巨星開啟時尚新篇

CHANEL推出2025手袋，攜手巨星開啟時尚新篇

2025-03-28 00:09:04

樂道L90外觀提前看：大空間旗艦SUV 顏值相當在線

樂道L90外觀提前看：大空間旗艦SUV 顏值相當在線

2025-03-28 00:17:55

人形機器人主持發佈會發佈自己！追覓科技孵化，下月將參加全球首屆人形機器人馬拉松

人形機器人主持發佈會發佈自己！追覓科技孵化，下月將參加全球首屆人形機器人馬拉松

2025-03-28 00:48:22

F1是如何年入260億人民幣？

F1是如何年入260億人民幣？

2025-03-28 01:18:54

PS5 使用者真的非常想玩 Xbox 遊戲，微軟第一方遊戲在索尼商店高居榜首

PS5 使用者真的非常想玩 Xbox 遊戲，微軟第一方遊戲在索尼商店高居榜首

2025-03-28 01:19:03

37款遊戲新動向蓄勢待發！“iii計劃”獨遊展示會定檔4月10日

37款遊戲新動向蓄勢待發！“iii計劃”獨遊展示會定檔4月10日

2025-03-28 01:35:40

小米第三款車長這樣？首款增程SUV，預計2026年發佈

小米第三款車長這樣？首款增程SUV，預計2026年發佈

2025-03-28 02:11:54

這一次，中汽研對小米SU7 Ultra電池下了“狠手”

這一次，中汽研對小米SU7 Ultra電池下了“狠手”

2025-03-28 02:11:58

為什麼微軟、華為和螞蟻，都不願錯過AI醫療？

為什麼微軟、華為和螞蟻，都不願錯過AI醫療？

2025-03-28 02:29:32

AITO問界M9斬獲中保研超4G安全車型行業唯一！

AITO問界M9斬獲中保研超4G安全車型行業唯一！

2025-03-28 02:39:30

阿裡雲發佈多模態大模型Qwen2.5-Omni-7B

阿裡雲發佈多模態大模型Qwen2.5-Omni-7B

2025-03-28 04:03:09

《穿越火線》懷舊模式定於4月21日上線

《穿越火線》懷舊模式定於4月21日上線

2025-03-28 05:31:11

庫克閃現網易與丁磊見面，竟是為了這款遊戲

庫克閃現網易與丁磊見面，竟是為了這款遊戲

2025-03-28 06:19:14

傳蘋果iPhone 18或全面搭載自研晶元徹底放棄兩通方案

傳蘋果iPhone 18或全面搭載自研晶元徹底放棄兩通方案

2025-03-28 06:45:39

62.8 萬元起！仰望 U7 正式上市，中國第一台水準對置發動機來了

62.8 萬元起！仰望 U7 正式上市，中國第一台水準對置發動機來了

2025-03-28 08:50:53

OpenAI擁抱MCP，這個智慧體的安卓

OpenAI擁抱MCP，這個智慧體的安卓

2025-03-28 09:38:31

第一NS的最後一場直面會，稱得上“風光大葬”了

第一NS的最後一場直面會，稱得上“風光大葬”了

2025-03-28 13:27:02

第三方公司推出Mac mini SSD升級服務比官方便宜

第三方公司推出Mac mini SSD升級服務比官方便宜

2025-03-28 14:22:10

曝小米AI智慧眼鏡價格有驚喜主打走量或4月17日發佈

曝小米AI智慧眼鏡價格有驚喜主打走量或4月17日發佈

2025-03-28 15:01:57