被質疑缺乏創新？Meta最新大模型基準測試排名低於競爭對手！

更新于：2025-04-13 10:03:28

本周早些時候，Meta公司因在眾包基準測試平臺LM Arena上使用其Llama 4 Maverick模型的未發佈實驗版本並取得高分而備受爭議。

這一事件引發了廣泛關注，促使LM Arena的維護團隊出面道歉，並隨即調整了其評分政策，轉而採用未經修改的原版Maverick模型進行評估。結果顯示，該模型在未經優化的情況下，其競爭力並不突出。

截至週五，未經修改的Maverick模型“Llama-4-Maverick-17B-128E-Instruct”在排名上落後於OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet以及Google的Gemini 1.5 Pro等模型。值得注意的是，這些競爭模型中的許多都是在數月前便已推出的。

那麼，為何Maverick模型在未經修改的情況下表現不佳呢？Meta公司在上週六發佈的一份圖表中給出了解釋。原來，其實驗性的Maverick模型Llama-4-Maverick-03-26-Experimental已經“針對對話性進行了優化”。這些優化在LM Arena的測試中確實取得了顯著成效，因為該平台依賴於人類評分員來比較不同模型的輸出，並選擇他們更偏好的模型。

儘管LM Arena因其測試方式而備受關注，但它從來都不是衡量AI模型性能的最可靠指標。根據基準測試來定製模型，不僅可能產生誤導性結果，還會讓開發人員難以準確預測模型在不同環境下的實際表現。

對此，Meta公司的一位發言人在一份聲明中表示，Meta已經嘗試了“各種類型的自定義變體”。

該發言人指出：“‘Llama-4-Maverick-03-26-Experimental’是我們測試過的聊天優化版本，在LM Arena上的表現確實令人印象深刻。然而，我們現在已經發佈了開源版本，並將密切關注開發者如何根據自身需求來定製Llama 4。我們非常期待看到他們的創新成果，並珍視他們持續的反饋。”