被質疑缺乏創新?Meta最新大模型基準測試排名低於競爭對手!
更新于:2025-04-13 10:03:28

本周早些時候,Meta公司因在眾包基準測試平臺LM Arena上使用其Llama 4 Maverick模型的未發佈實驗版本並取得高分而備受爭議。

這一事件引發了廣泛關注,促使LM Arena的維護團隊出面道歉,並隨即調整了其評分政策,轉而採用未經修改的原版Maverick模型進行評估。結果顯示,該模型在未經優化的情況下,其競爭力並不突出。

截至週五,未經修改的Maverick模型“Llama-4-Maverick-17B-128E-Instruct”在排名上落後於OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet以及Google的Gemini 1.5 Pro等模型。值得注意的是,這些競爭模型中的許多都是在數月前便已推出的。

那麼,為何Maverick模型在未經修改的情況下表現不佳呢?Meta公司在上週六發佈的一份圖表中給出了解釋。原來,其實驗性的Maverick模型Llama-4-Maverick-03-26-Experimental已經“針對對話性進行了優化”。這些優化在LM Arena的測試中確實取得了顯著成效,因為該平台依賴於人類評分員來比較不同模型的輸出,並選擇他們更偏好的模型。

儘管LM Arena因其測試方式而備受關注,但它從來都不是衡量AI模型性能的最可靠指標。根據基準測試來定製模型,不僅可能產生誤導性結果,還會讓開發人員難以準確預測模型在不同環境下的實際表現。

對此,Meta公司的一位發言人在一份聲明中表示,Meta已經嘗試了“各種類型的自定義變體”。

該發言人指出:“‘Llama-4-Maverick-03-26-Experimental’是我們測試過的聊天優化版本,在LM Arena上的表現確實令人印象深刻。然而,我們現在已經發佈了開源版本,並將密切關注開發者如何根據自身需求來定製Llama 4。我們非常期待看到他們的創新成果,並珍視他們持續的反饋。”