AI評測新招：讓AI在《我的世界》中比拼建築創意_港資訊

AI評測新招：讓AI在《我的世界》中比拼建築創意

ITBEAR科技資訊

更新于：2025-03-26 03:41:44

在探索人工智慧（AI）能力邊界的過程中，傳統的基準測試方法正面臨挑戰。為了更全面、直觀地評估AI模型的能力，開發者們正轉向一些非傳統途徑，其中，《我的世界》這款沙箱建造遊戲成為了備受矚目的測試平臺。

據TechCrunch報導，一位名叫阿迪·辛格的高三學生，憑藉對AI評測的獨到見解，創建了名為Minecraft Benchmark（簡稱MC-Bench）的網站。該網站利用《我的世界》作為競技場，讓AI模型在相同的提示下生成建築作品，並通過使用者投票的方式評選出優秀作品。投票結束後，才會揭曉每幅作品的創作者——即哪款AI模型。

辛格表示，選擇《我的世界》並非因為其遊戲性，而是其廣泛的知名度和獨特的方塊風格。這種風格使得即便是非玩家也能輕鬆分辨出哪個方塊狀的建築更加逼真。“《我的世界》為我們提供了一個直觀的視窗，讓我們能夠清晰地看到AI發展的進步。大家對這款遊戲的視覺風格非常熟悉，這使得評估過程更加直接和有效。”

目前，MC-Bench網站已經吸引了8名志願貢獻者的加入。Anthropic、谷歌、OpenAI和阿裡巴巴等科技巨頭為該專案提供了寶貴的AI計算資源支援，儘管他們並未直接參與網站的開發工作。

辛格進一步解釋說，MC-Bench目前的測試還處於基礎階段，主要用於觀察AI從GPT-3時代到現在的進步。然而，他展望了未來可能的拓展方向：“我們或許可以將測試擴展到更複雜的目標導向任務和長期規劃能力評估。遊戲作為一種測試平臺，具有安全性和可控性的優勢，是評估AI智慧體推理能力的理想選擇。”

從嚴格意義上講，MC-Bench屬於程式設計基準測試的一種變體，因為AI模型需要編寫代碼來生成建築，如“霜雪人”或“熱帶風情的海濱小屋”等。這種測試方式相較於傳統的代碼分析更具直觀性，因為大多數使用者更容易通過作品本身來評判AI的表現。

儘管關於這些測試結果是否能真正反映AI的實際應用價值仍存在爭議，但辛格認為這些數據仍然具有重要的參考價值。“MC-Bench的排行榜與我在實際使用中的體驗高度一致，這在許多傳統的文本基準測試中並不常見。因此，我相信它能夠説明AI開發者判斷自己是否正在朝著正確的方向前進。”

問界M9為何捨棄自然吸氣，選擇渦輪增壓？背後的考量竟是這些！

問界M9為何捨棄自然吸氣，選擇渦輪增壓？背後的考量竟是這些！

2025-03-26 04:36:06

宇樹科技功夫機器人“GAMEBOT”來襲，已申請相關商標待審

宇樹科技功夫機器人“GAMEBOT”來襲，已申請相關商標待審

2025-03-26 04:36:21

比亞迪秦L EV上市，11.98萬起享30萬級配置，年輕人的純電新寵來了！

比亞迪秦L EV上市，11.98萬起享30萬級配置，年輕人的純電新寵來了！

2025-03-26 04:36:54

衛生巾翻新事件背後：涉事老闆公司竟經營異常！

衛生巾翻新事件背後：涉事老闆公司竟經營異常！

2025-03-26 04:38:10

華為Pura X首批售罄，李楠評其行銷策略：真的人人買得起？

華為Pura X首批售罄，李楠評其行銷策略：真的人人買得起？

2025-03-26 04:38:18

OPPO Find X8系列新機搶先看：Ultra影像旗艦領銜，小屏旗艦也驚豔！

OPPO Find X8系列新機搶先看：Ultra影像旗艦領銜，小屏旗艦也驚豔！

2025-03-26 04:38:35

我國科學家突破！8英寸矽基氮極性氮化鎵襯底全球首創成功

我國科學家突破！8英寸矽基氮極性氮化鎵襯底全球首創成功

2025-03-26 04:38:54

AI引領未來：阿裡雲招募生態夥伴，無人打車服務將上線，氫能大會將啟幕

AI引領未來：阿裡雲招募生態夥伴，無人打車服務將上線，氫能大會將啟幕

2025-03-26 04:39:17

谷歌Gemini新升級：即時AI視頻與螢幕閱讀功能亮相

谷歌Gemini新升級：即時AI視頻與螢幕閱讀功能亮相

2025-03-26 04:39:19

鈉電池電動車雖貴卻受熱捧，背後這五大優勢你瞭解嗎？

鈉電池電動車雖貴卻受熱捧，背後這五大優勢你瞭解嗎？

2025-03-26 04:40:55

風雲氣象衛星再升級！未來兩年我國將發射多顆，助力全球氣象安全

風雲氣象衛星再升級！未來兩年我國將發射多顆，助力全球氣象安全

2025-03-26 04:41:01

蘋果地圖出Bug，機場行李提取處竟成“興趣點”？

蘋果地圖出Bug，機場行李提取處竟成“興趣點”？

2025-03-26 04:41:16

2月上市車企銷量盤點：整車近150萬輛，新能源銷量同比翻倍

2月上市車企銷量盤點：整車近150萬輛，新能源銷量同比翻倍

2025-03-26 04:41:26

天國拯救2：亨利為何對噴泉情有獨鍾？玩家態度各異

天國拯救2：亨利為何對噴泉情有獨鍾？玩家態度各異

2025-03-26 04:41:38

體重管理熱潮湧動，全國健身企業數量突破157萬大關

體重管理熱潮湧動，全國健身企業數量突破157萬大關

2025-03-26 04:41:42

Win11 23H2預覽版升級：檔管理器文本縮放功能全面優化

Win11 23H2預覽版升級：檔管理器文本縮放功能全面優化

2025-03-26 04:41:50

天合光能研發成功：全球首塊800W+大尺寸鈣鈦礦晶體矽疊層電池元件問世

天合光能研發成功：全球首塊800W+大尺寸鈣鈦礦晶體矽疊層電池元件問世

2025-03-26 04:41:51

微星泰坦18 Pro新配置來襲：RTX5080顯卡+大容量電池，電競神器再升級！

微星泰坦18 Pro新配置來襲：RTX5080顯卡+大容量電池，電競神器再升級！

2025-03-26 04:41:52

“AI TV”浪潮洶湧而至，顛覆性電視體驗的新時代悄然到來

“AI TV”浪潮洶湧而至，顛覆性電視體驗的新時代悄然到來

2025-03-26 04:42:16

Windows 11新更新：檔管理員輔助功能大升級，使用體驗再提升

Windows 11新更新：檔管理員輔助功能大升級，使用體驗再提升

2025-03-26 04:42:36

小米SU7 Ultra勇闖珠峰！中國汽車工業新高度

小米SU7 Ultra勇闖珠峰！中國汽車工業新高度

2025-03-26 04:42:47

Win+C快捷鍵重生！微軟再啟Copilot快速啟動鍵

Win+C快捷鍵重生！微軟再啟Copilot快速啟動鍵

2025-03-26 04:42:48

Epic Games Store移動端大升級，每周免費遊戲等你來領！

Epic Games Store移動端大升級，每周免費遊戲等你來領！

2025-03-26 04:42:57

小米SU7 Ultra勇攀珠峰！中國汽車工業的新里程碑

小米SU7 Ultra勇攀珠峰！中國汽車工業的新里程碑

2025-03-26 04:43:25