AI評測新招:讓AI在《我的世界》中比拼建築創意
更新于:2025-03-26 03:41:44

在探索人工智慧(AI)能力邊界的過程中,傳統的基準測試方法正面臨挑戰。為了更全面、直觀地評估AI模型的能力,開發者們正轉向一些非傳統途徑,其中,《我的世界》這款沙箱建造遊戲成為了備受矚目的測試平臺。

據TechCrunch報導,一位名叫阿迪·辛格的高三學生,憑藉對AI評測的獨到見解,創建了名為Minecraft Benchmark(簡稱MC-Bench)的網站。該網站利用《我的世界》作為競技場,讓AI模型在相同的提示下生成建築作品,並通過使用者投票的方式評選出優秀作品。投票結束後,才會揭曉每幅作品的創作者——即哪款AI模型。

辛格表示,選擇《我的世界》並非因為其遊戲性,而是其廣泛的知名度和獨特的方塊風格。這種風格使得即便是非玩家也能輕鬆分辨出哪個方塊狀的建築更加逼真。“《我的世界》為我們提供了一個直觀的視窗,讓我們能夠清晰地看到AI發展的進步。大家對這款遊戲的視覺風格非常熟悉,這使得評估過程更加直接和有效。”

目前,MC-Bench網站已經吸引了8名志願貢獻者的加入。Anthropic、谷歌、OpenAI和阿裡巴巴等科技巨頭為該專案提供了寶貴的AI計算資源支援,儘管他們並未直接參與網站的開發工作。

辛格進一步解釋說,MC-Bench目前的測試還處於基礎階段,主要用於觀察AI從GPT-3時代到現在的進步。然而,他展望了未來可能的拓展方向:“我們或許可以將測試擴展到更複雜的目標導向任務和長期規劃能力評估。遊戲作為一種測試平臺,具有安全性和可控性的優勢,是評估AI智慧體推理能力的理想選擇。”

從嚴格意義上講,MC-Bench屬於程式設計基準測試的一種變體,因為AI模型需要編寫代碼來生成建築,如“霜雪人”或“熱帶風情的海濱小屋”等。這種測試方式相較於傳統的代碼分析更具直觀性,因為大多數使用者更容易通過作品本身來評判AI的表現。

儘管關於這些測試結果是否能真正反映AI的實際應用價值仍存在爭議,但辛格認為這些數據仍然具有重要的參考價值。“MC-Bench的排行榜與我在實際使用中的體驗高度一致,這在許多傳統的文本基準測試中並不常見。因此,我相信它能夠説明AI開發者判斷自己是否正在朝著正確的方向前進。”