外國高三學生創建AI評測網站：讓AI在《我的世界》裡“一決高下”

更新于：2025-03-26 03:20:07

IT之家 3 月 22 日消息，由於傳統 AI 基準測試方法難以全面評估模型能力，AI 開發者正嘗試更具創意的測試方式，其中一種測試手段，則是微軟沙箱建造遊戲《我的世界》。

據外媒 TechCrunch 報導，名為阿迪・辛格（Adi Singh）的高三學生創建了專門為 AI 評測而開發的網站 Minecraft Benchmark（簡稱 MC-Bench），讓 AI 模型在《我的世界》中同台競技，基於相同的提示生成建築作品。用戶可以為自己認為更出色的作品投票，而投票結束後才會顯示具體是哪款 AI 生成了哪些作品。

其認為選擇《我的世界》的意義並不在於遊戲本身，而在於它的知名度。即便沒玩過這款遊戲，人們依然能分辨哪個方塊狀的鳳梨更逼真。“《我的世界》能讓 AI 發展的進步更加直觀，大家對《我的世界》的風格和視覺效果都很熟悉。”

目前，MC-Bench 的志願貢獻者共有 8 人。IT之家從 MC-Bench 網站的信息獲悉，Anthropic、谷歌、OpenAI 和阿裡巴巴為該專案提供了 AI 計算資源支援，但並未直接參與開發。

“目前，我們的測試仍然較為基礎，主要用於觀察 AI 從 GPT-3 時代至今的進步。但未來，我們或許會拓展到更複雜的目標導向任務和長期規劃能力評估，遊戲或許是測試 AI 智慧體推理能力的一種理想方式 —— 相比現實世界，它更安全，也更可控。”

嚴格來說，MC-Bench 仍屬於程式設計基準測試，因為 AI 需要編寫代碼來生成建築，例如“霜雪人”或“熱帶風情的海濱小屋”。

相較於分析代碼，大多數使用者更容易通過作品本身來評判 AI 的表現。至於這些測試結果是否能真正衡量 AI 的實際應用價值，仍有待商榷。但辛格認為，這些數據仍然具備重要參考意義。“MC-Bench 當前的排行榜與我的實際使用體驗高度吻合，而這在許多傳統文本基準測試中並不常見。或許，它能説明 AI 開發者判斷自己是否走在正確的方向上。”