Claude 3.5首戰複現21%頂會論文，人類博士無法取代！OpenAI：AI全是草台班子

更新于：2025-04-07 08:53:44

編輯：桃子好困

【新智元導讀】AI若能自主復現頂尖科研論文，未來科研將被掀翻天。OpenAI最新框架PaperBench正為此生，讓AI智慧體從頭開始複現ICML 2024 20篇優秀論文，只有Claude 3.5 Sonnet拔得頭籌，但仍無法超越ML博士水準。

AI智慧體，能否復現頂會中重磅的AI研究？

今天，OpenAI團隊發佈了全新框架PaperBench，便可評估AI智慧體複現頂尖研究的基礎能力。

論文位址：https://openai.com/index/paperbench/

要求是，AI智慧體需從0開始複現20篇ICML 2024 Spotlight和Oral論文，包括理解論文核心文獻、開發可運行代碼庫，以及執行實驗並驗證結果。

為了客觀評估AI成果，OpenAI聯手每篇ICML論文作者開發了「評估標準」，將每個複製任務層次化分解為具有明確評分標準的較小子任務。

總共，PaperBench包含8,316個可單獨評分的任務。

結果發現，只有Claude 3.5 Sonnet（New）拿下了最高分21.0%，o1-high得分13.2%，DeepSeek-R1是6%，GPT-4o是4.1%。

遺憾的是，即便是最領先的LLM，仍無法超越機器學習博士。

目前，OpenAI將PaperBench的所有代碼開源。

GitHub位址：https://github.com/openai/preparedness

AI挑戰複現ICML 2024大作

PaperBench的目標，直指AI智慧體的科研潛力。

若要完整複現ICML 2024 20篇優秀的論文，意味著AI不僅需要理解論文核心思想，還得自主開發代碼庫、運行實驗，甚至是排除故障。

要知道，這是一項連人類研究員需要好幾天，才能完成的高難度任務。

這項研究的主要貢獻包括：

PaperBench：一個包含20篇ML研究論文和經作者批准的評分標準的基準測試，以及使用基於LLM評估的自動評分工作流程。
PaperBench Code-Dev：基準測試的一個更輕量級的變體，放寬了PaperBench的一些要求，使設置和評估對更廣泛的社區更易於使用。
JudgeEval：一個包含人類評分提交結果的數據集，可用作開發和評估自動評估的輔助工具。
在PaperBench上對SOTA模型的評估：對幾個前沿AI智慧體執行長週期任務和機器學習研發能力的綜合評估。

更重要的是，PaperBench不僅是一個學術實驗，它還與其他AI安全框架緊密關聯。

它可用作OpenAI的準備框架中的模型自主性度量、Anthropic負責任擴展政策中的自主能力指標，以及Google DeepMind的前沿安全框架中的機器學習研發評估工具。

PaperBench：20篇論文，8316個任務

如上所述，PaperBench選取了來自ICML 2024中20篇 Spotlight和Oral論文，主要覆蓋了12個主題。

其中包括，深度強化學習、魯棒性和概率方法。

而且，每篇論文都配備了詳細的評分標準，總計8,316個可單獨評估的評分專案。

這些標準均是由每篇論文原作者與OpenAI共同制定，確保評估過程中的準確性和權威性。

評分標準採用層次結構，將複雜的復現目標分解為細粒度子任務。

任務+複現

對於PaperBench中的每個樣本，AI智能體會收到論文和論文澄清說明的附錄。

候選智慧體必須提交一個包含複現論文實證結果所需的所有代碼的代碼庫，而且代碼庫根目錄必須包含一個reproduce.sh檔，作為執行所有必要代碼以復現論文結果的入口點。

當提交的reproduce.sh能夠在全新環境中成功複現論文中報告的實證結果時，AI智慧體便成功完成複現任務。

樹級評分

在基準測試中，每篇論文都配有一個評分標準，明確規定了完整論文複製的評估要求。

評分標準被設置為一個要求層級結構，每個葉節點（leaf node）指定一個明確的通過/失敗標準（見圖2），且每個節點都根據其相對於同級節點的重要性被手動賦予了權重。

對於一個葉節點標準，評估者會判斷提交內容是否滿足其要求，如果滿足則給予1分，否則給0分。

當所有葉節點都被評分後，父節點（parent node）的分數將等於其所有子節點分數的加權平均值。

這一計分過程會一直向上傳遞到樹的根節點（root），根節點的分數即被視為該提交的最終複製分數（Replication Score）。

換句話說，每個提交的評分是基於所有滿足的評分標準要求的權重調整后的比例，其中100%表示完美複製，即滿足了所有葉節點的要求。

目前，論文中主要評估指標是所有論文的平均複製分數。

每個葉節點具有三種可能的需求類型之一，這決定了其評分方式。

結果匹配（Result Match）葉節點評估已執行的提交是否包含複製論文中特定結果的證據。
執行（Execution）葉節點評估運行reproduce.sh腳本時是否產生了某些特定的執行結果。
代碼開發（Code Development）葉節點評估候選者的原始程式碼是否包含某些需求的正確實現。

可以上網，但不能查看原作者代碼庫

PaperBench設計為與智慧體支援框架（agent scaffolds）無關，因此研究團隊對智慧體的運行環境沒有特定要求。然而，基準測試確實制定了一些規則來確保公平比較：

智慧體可以瀏覽互聯網，但不得使用OpenAI提供的每篇論文黑名單中網站的資源。每篇論文的黑名單包括作者自己的代碼庫和任何其他在線複製實現。
智慧體可使用的資源，如運行時間和計算能力，不受任何限制。
開發者應為智慧體提供必要的在線服務API金鑰（例如，用於下載數據集的HuggingFace憑證）。

對於實驗，OpenAI還構建了一個簡單的後處理監控工具，用於檢查智慧體日誌中是否出現黑名單URL，發現可疑情況後會提交給人工審核，以取消使用黑名單資源的任何提交資格。

LLM評判成本降至10美金，比專家更高效

面對如此複雜的任務，人工評分顯然不現實。

一篇論文的複現嘗試，通常需要人類專家數十小時來評估。

為此，OpenAI團隊開發了一個基於大模型自動評判系統，並推出了輔助工具JudgeEval，用來驗證自動評判者的表現。

對於給定的提交內容，評判系統SimpleJudge會獨立地對評分標準中的每個葉節點進行評分。

針對特定葉節點，評判系統會接收論文的Markdown格式文本、完整的評分標準JSON檔、葉節點的具體要求和提交內容作為提示詞。

如下圖5所示，對於PaperBench Code-Dev，每篇論文的成本降至約10美元，證明瞭比聘請專家進行人工評分更加經濟且高效。

Claude 3.5 Sonnet得分最高

實驗中，研究人員對GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet（New）和Gemini 2.0 Flash在所有20篇論文上進行了評估，每篇論文進行了3次運行。

而且，他們每個智慧體設置了最長12小時的運行時限。

如下表4所示，展示了各模型的平均復現得分。

其中，Claude 3.5 Sonnet表現最出色，得分達到21.0%。OpenAI o1表現較弱，得分為13.2%，其他模型表現不佳，得分均低於10%。

為了更好地理解智慧體性能，研究人員手動檢查了幾個智慧體的運行日誌。

他們發現，除了Claude 3.5 Sonnet外，所有模型都經常提前結束任務，聲稱它們要麼已完成整個複現工作，要麼遇到了無法解決的問題。

所有智慧體都未能制定有效策略，考慮如何在有限時間內最優地復現論文。我們還觀察到o3-mini在工具使用方面經常遇到困難。

這些失敗模式表明當前模型在執行長期規劃任務方面存在弱點：儘管在制定和編寫多步驟計劃方面表現出充分的能力，但模型未能實際採取一系列行動來執行這些計劃。

反覆運算智慧體

鑒於模型往往無法充分利用可用的全部時間，研究人員還測試了BasicAgent的一個變體。

這個變體通過移除智慧體提前結束任務的能力，強制其在全部可用時間內持續運行，並使用經過優化的提示詞來鼓勵模型以逐步方式工作。

他們將這個智慧體稱為IterativeAgent。

研究人員使用IterativeAgent對o1、o3-mini和Claude 3.5 Sonnet進行了測試，如下表5所示。

他們發現使用IterativeAgent后，o1和o3-mini的得分顯著提升。

值得注意的是，在使用BasicAgent時，Claude 3.5 Sonnet的表現優於o1，但在使用IterativeAgent時，其表現卻不如o1。這表明為IterativeAgent優化的提示詞，對OpenAI o系列模型有著不同程度的適用性。

研究人員推斷，如果對BasicAgent進行類似修改，同樣防止其提前結束任務，可能會使Claude 3.5 Sonnet的表現超過使用IterativeAgent的o1。

人類拿下41.4%

此外，研究人員還招募了8名目前正在攻讀/已完成ML博士學位的參與者來挑戰3篇論文的子集。

這裡，他們採用了AI智慧體類似的條件下評估參與者。

參與者會拿到PDF和Markdown格式的論文，以及論文的附錄和盡可能接近用於AI智慧體的指令，並可使用單個英偉達A10 GPU。

參與者兼職工作，有四周的時間視窗來取得盡可能多的進展。

另外，團隊對使用IterativeAgent的o1進行了36小時的延長運行，每小時保存快照，並對1、3、6、12和36小時時拍攝的快照進行評分。

如圖3所示，比較了o1的這次36小時延長運行與人類隨時間的表現。

研究觀察到，o1在複現嘗試的早期階段最初優於人類基準，但在24小時後，人類開始超過AI智慧體。智慧體最初優於人類但在更長時間跨度內落後的趨勢與先前結果一致。

ML博士在48小時內（3次嘗試取最佳）拿下了41.4%高分，而統一子集上，o1僅為26.6%分。

這表明，與人類專家相比，AI儘管進步顯著但仍有差距。

此外，研究人員還推出了一個輕量級變體PaperBench Code-Dev，在這個版本中，o1的得分飆升至43.4%，顯示出AI在簡化任務上的潛力。

結論

21%得分或許只是一個開始。

PaperBench不僅揭示了AI智慧體在科研中的潛力，也暴露它們在長期規劃任務中的局限性。下一步，隨著模型能力提升，它們能夠接近甚至超越41.4%人類基準？

有哪些省錢思路其實很實用，結果富人不需要，窮人刷不到？

2025-03-25 23:19:37

一個電機就有800匹，柯尼賽格是怎麼做到的？

2025-03-25 23:20:35

有哪些看起來熱量很高，實則熱量並不高的食物？

2025-03-25 23:20:37

能大致講一下 DeepSeek 的原理嗎？

2025-03-25 23:24:58

為什麼deepseekR1之後的大模型都開始做思維鏈？

2025-03-25 23:29:12

阿裡發佈開源推理模型 QwQ-32B，支援消費級顯卡本地部署，有哪些技術亮點？

2025-03-25 23:32:43

英雄最終往往選擇隱退江湖，武俠文學作品中哪個角色的隱退方式你覺得最完美？

2025-03-25 23:33:25

為什麼很多公司因為「降本增效」而倒閉了？

2025-03-25 23:38:08

如何評價OpenManus這個開源專案？

2025-03-25 23:39:43

雷軍建議優化新能源汽車號牌設計，稱綠色號牌制約了汽車產品的設計效果，怎麼看這一建議？你會設計成什麼樣？

2025-03-25 23:39:45

晚上睡不著白天睡不醒，是什麼「偷走」了我們的夜晚？

2025-03-25 23:48:30

為什麼C語言從不被淘汰？那些Rust/Go吹噓的安全特性，C語言真的做不到嗎?

2025-03-26 00:11:39

電動汽車的車主，有多少比例知道電池只有約10年壽命？

2025-03-26 00:13:21

北魏分裂后的皇室及宗室在東魏+北齊和西魏+北周的待遇哪個最差？

2025-03-26 00:18:19

金庸先生為何寫完《鹿鼎記》之後就停止了武俠小說的創作?

2025-03-26 00:18:20

北周比北齊面積大了好幾倍，為什麼北周大臣說北齊佔了一半天下？

2025-03-26 00:18:22

為什麼伊爾汗國沒有攻打俾路支地方作為自己的臣屬?

2025-03-26 00:19:56

為什麼同樣是初到榮國府，幼年喪母的黛玉只能睡碧紗櫥，而即將嫁人的薛寶琴卻直接跟賈母一起睡了？

2025-03-26 00:22:30

城市的哪個角落，讓你覺得既有歷史的厚重氣息，又有春天的生命活力？可以分享你拍下的這個瞬間嗎？

2025-03-26 00:24:16

何愷明帶隊新作「分形生成模型」：逐圖元建模高解析度圖像、效率提升4000倍

2025-03-26 00:24:19

如何看待美食博主大祥哥自曝投資被騙千萬？

2025-03-26 00:24:24

為什麼生日蛋糕上的那種紅色、綠色的櫻桃味道與新鮮櫻桃的味道完全不一樣，且很難吃，是什麼原因讓美味的櫻桃變成了這種噁心的味道？

2025-03-26 01:37:24

前端面試被問「你在未來 5 年的職業目標是什麼」，但前端都快死了，我該如何回答職業規劃的問題？

2025-03-26 01:45:07

為什麼可以把線性空間 V 看成是它對偶空間 V* 的對偶空間？

2025-03-26 01:45:09