知名 AI 研究員 Francois Chollet 共同創立的非營利組織 Arc Prize Foundation 在周一的一篇博文中宣布,他們創建了一個新的、具有挑戰性的測試,用於衡量領先 AI 模型的通用智能水準。
到目前為止,這個名為 ARC-AGI-2 的新測試讓大多數模型都難以應對。
根據 Arc Prize 排行榜顯示,像 OpenAI 的 o1-pro 和 DeepSeek 的 R1 這樣的"推理型" AI 模型在 ARC-AGI-2 上的得分在 1% 到 1.3% 之間。包括 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Flash 在內的強大非推理模型的得分約為 1%。
ARC-AGI 測試由類似謎題的問題組成,AI 需要從不同顏色方塊的集合中識別視覺模式,並生成正確的"答案"網格。這些問題的設計目的是迫使 AI 適應它之前從未見過的新問題。
Arc Prize Foundation 讓超過 400 人參加了 ARC-AGI-2 測試,以建立人類基準。平均而言,這些人組成的"小組"在測試題目中的正確率達到 60% —— 遠遠超過任何模型的得分。
在 X 平臺上的一篇帖子中,Chollet 聲稱 ARC-AGI-2 比第一代測試 ARC-AGI-1 能更好地衡量 AI 模型的實際智能水準。Arc Prize Foundation 的測試旨在評估 AI 系統是否能在其訓練數據之外高效地獲取新技能。
Chollet 表示,與 ARC-AGI-1 不同,新測試防止 AI 模型依賴"暴力計算" —— 即大量計算力 —— 來尋找解決方案。Chollet 此前承認這是 ARC-AGI-1 的一個主要缺陷。
為了解決第一個測試的缺陷,ARC-AGI-2 引入了一個新的衡量標準:效率。它還要求模型即時解釋模式,而不是依賴記憶。
Arc Prize Foundation 聯合創始人 Greg Kamradt 在一篇博文中寫道:"智慧不僅僅由解決問題或獲得高分的能力來定義。獲取和部署這些能力的效率是一個關鍵的、決定性的組成部分。核心問題不僅僅是'AI 能否獲得解決任務的技能?',還包括'以什麼效率或成本?'"
ARC-AGI-1 在大約五年內都未被超越,直到 2024 年 12 月,OpenAI 發佈了其先進的推理模型 o3,該模型超越了所有其他 AI 模型,並在評估中達到了與人類相當的表現。然而,正如我們當時指出的,o3 在 ARC-AGI-1 上的性能提升伴隨著高昂的成本。
OpenAI 的 o3 模型版本 —— o3 (low) —— 首次在 ARC-AGI-1 上達到新高度,在測試中得分 75.7%,但在 ARC-AGI-2 上每個任務使用 200 美元的計算力只獲得了 4% 的可憐得分。
隨著科技行業許多人呼籲需要新的、未飽和的基準來衡量 AI 進展,ARC-AGI-2 應運而生。Hugging Face 的聯合創始人 Thomas Wolf 最近告訴 TechCrunch,AI 行業缺乏足夠的測試來衡量所謂人工通用智慧的關鍵特徵,包括創造力。
與新基準一同發佈的還有 Arc Prize 2025 競賽,挑戰開發者在每個任務僅花費 0.42 美元的情況下,在 ARC-AGI-2 測試中達到 85% 的準確率。