AI 生成的論文在 ICLR Workshop 2025 拿到了中上分數,這會對科研界帶來什麼影響?
更新于:2025-04-14 08:58:17

我的個人建議是,當你在自媒體上標題很慫人的AI新聞,點擊原論文,看看abstract,然後搜索「limitation」,就基本瞭解清楚一項新技術它的長處和短板了。

首先看看limitation。

簡單來說,ICLR分為workshop和主會場(同樣的,ICML、NeurIPS也是一樣),workshop的接受率通常在60-80%,而主會場只有20-30%,也就是說,其實workshop的要求並不太嚴格,團隊也承認論文並不太可能被主會場接受,他們甚至大方承認,即使在workshop這個級別,表現也是不穩定的。

我們可以報告的第30頁,在這裡,他們展示了三篇AI生成的論文,以及review的結果。

其實點進去被reject的那些論文,你會發現,很多低級錯誤,例如引用丟失(詳見:[1]

圖文不符(詳見:[2]

但比起上個版本,這個版本的AI-scientist還是有進步的。其實這是第二個版本了,從名字AI Scientist-v2就能看出,v2版本擺脫了對人類編寫模版的依賴,由實驗管理器代理引導漸進式代理樹搜索,自己就能生成論文,且能通過workshop 的同行評審,也算是agent應用的新突破了。

而且,他們還是遵守了學術規範,撤回了提交到workshop的幾篇文章,也算是值得肯定的一點。畢竟他們的目的是發表AI scientist的成果,而不是那幾篇。

總的來說,是一個不錯的PoC,也許可以為科研提速,但要在科研中「端到端」的使用AI生成論文,不加任何人類修改,是不太可能的,畢竟科研要求極其嚴謹的論證過程,數據需要極高的準確率,這都是當前大模型能力達不到的,畢竟幻覺問題依然是大模型的一個無法解決的問題。