地表最強,Gemini 2.5Pro發佈!多模型對比實測到底如何?請看文章
更新于:2025-03-27 13:14:51

Google近期發佈的Gemini 2.5 Pro Experimental模型,以其卓越的性能和多模態處理能力,引發了業界的廣泛關注。本文將詳細介紹Gemini 2.5 Pro的關鍵特性,並通過與多個主流模型的對比實測,深入分析其在不同任務中的表現,探討其是否真的能夠成為“地表最強”的AI模型。

Google發佈 Gemini 2.5 Pro Experimental

文章結構:

先介紹Gemini 2.5 Pro發佈內容和基準評測。然後介紹筆者的多個模型實際對比測評。

發佈內容要點

  • 超越所有模型重奪第一,在多個領域標準評估中取得SOTA成績
  • 一個全新的Thinking Model(思考型模型)
  • 大幅提升邏輯推理、編碼生成、複雜任務處理能力
  • 支援 100萬 tokens 上下文(未來將支援200 萬)
  • 在 Humanity’s Last Exam(測試 AI 在人類高階知識推理的能力)中,Gemini 2.5創下 18.8% 得分,為無工具模型中全球最強。
  • 在 LMArena 上,獲得當前 人類偏好最高分
  • 這個是重點!多模態原生支援(非外掛),原生支援:文本,圖片(含圖表、草圖、照片),視頻(含字幕、動作識別、語義理解),音訊(如語音合成/識別),代碼(整 repo 分析)。統一架構共用注意力機制,實現圖-文-音-碼同源協同處理。

評測數據

基準測試

知識推理&科學&數據表現

筆者實測

測試題目

這個是不同大模型的一個測評圖表,首先解讀不同數據集的含義和作用。另外,對整個的測評結果,以deepseek v3-0324版本為基準進行解讀分析

選擇依據

圖文結合的多模態數據輸入更考驗模型

輸入數據的圖示有一定的數據和對比,可以考驗模型識別、理解、推理等能力,一個題目綜合性評測

評測物件

幾乎主流的模型都參與的評測,包括但不限grok3,O3 mini,deepseek R1等

評測結論

只有Gemini 2.5Pro可以完全理解輸入的圖文結合數據,並按照要求進行知識解答,圖示數據的正確分析對比。意外插曲是輸出內容為英文。

評測結果

Gemini 2.5 pro

回答完整、詳細、準確。可以作為圖示類內容分析、學習的模版參考。

部分原圖,下面文字是完整輸出

原文翻譯內容

好的,讓我們來分析一下這個條形圖,它比較了不同的大型語言模型。

第一部分:理解數據集(基準測試)

這些數據集用於評估大型語言模型在不同領域的功能,主要集中在知識、推理、數學和程式設計方面。

1. MMLU-Pro(EM):

• 含義: MMLU代表大規模多任務語言理解。這是一個廣泛的基準測試,旨在衡量模型在訓練過程中獲得的知識,涵蓋57個不同學科,如人文學科、社會科學、STEM等。“Pro”可能表示這是原始MMLU的一個更具挑戰性或更精細的版本,可能包含更難的問題或更嚴格的評估。

• 指標(EM): 完全匹配。這意味著模型的答案必須與正確答案字串完全一致,才能算作正確答案。這是一個非常嚴格的標準。

• 目的: 評估模型的世界知識的廣度和深度,以及其準確應用這些知識的能力。

2. GPQA Diamond(Pass@1):

• 含義: GPQA代表研究生級谷歌證明問答。這個基準測試包含由領域專家(生物學、物理學、化學)編寫的難題,僅靠在線搜索很難回答正確(因此稱為“谷歌證明”)。“Diamond”可能指GPQA的一個特定子集,很可能是更具挑戰性的部分。

• 指標(Pass@1): 這是程式設計和數學中常見的指標,表示模型生成的第一個解決方案正確的百分比。

• 目的: 評估在需要理解複雜概念而非簡單資訊檢索的專家級問題上的深度推理和解決問題的能力。

3. MATH-500(Pass@1):

• 含義: 這指的是MATH數據集,包含具有挑戰性的競賽數學問題(例如來自AMC 10、AMC 12、AIME級別)。“500”可能指一個特定子集或版本,可能表示500個問題。

• 指標(Pass@1): 同上,模型生成的第一個解決方案正確的百分比。

• 目的: 特別衡量數學推理、符號操作和解決問題的能力。

4. AIME 2024(Pass@1):

• 含義: AIME代表美國數學邀請賽,這是美國的一項高中數學競賽。“2024”表示這些問題是來自2024年的最新競賽。

• 指標(Pass@1): 模型生成的第一個解決方案正確的百分比。

• 目的: 測試在最新、具有挑戰性的競賽級問題上的高級數學解決問題能力,這些問題是模型在訓練數據中不太可能見過的。

5. LiveCodeBench(Pass@1):

• 含義: 這是一個用於評估代碼生成能力的基準測試。“Live”可能表示它使用來自最近程式設計競賽的問題,或者會頻繁更新,以防止訓練數據的污染。

• 指標(Pass@1): 模型生成的第一個代碼解決方案通過隱藏測試用例的百分比。

• 目的: 評估模型理解程式設計問題描述並生成正確、功能代碼的能力。

第二部分:結果分析(基準:DeepSeek-V3-0324)

我們將分析這些基準測試的表現,比較DeepSeek-V3-0324(深藍色條紋柱)與其他模型:DeepSeek-V3(淺藍色)、Qwen-Max(中藍色)、GPT-4.5(深灰色)和Claude-Sonnet-3.7(淺灰色)。(模型理解得很正確)

總體表現:

DeepSeek-V3-0324在所有評估的基準測試中表現始終處於或接近頂尖水準。與之前的DeepSeek-V3版本相比,它在所有類別中都有顯著提升。

MMLU-Pro(廣泛知識):

  • DeepSeek-V3-0324得分為81.2%。
  • 這個成績優於DeepSeek-V3(75.9%)、Qwen-Max(76.1%)和Claude-Sonnet-3.7(80.7%)。
  • 它略遜於GPT-4.5(86.1%)。
  • 解讀: DeepSeek-V3-0324具有非常強大的一般知識,與Claude-Sonnet-3.7競爭激烈,並且超過了Qwen-Max,儘管在這一特定評估中仍然落後於GPT-4.5。

GPQA Diamond(專家推理):

  • DeepSeek-V3-0324得分為68.4%。
  • 這個成績明顯優於DeepSeek-V3(59.1%)和Qwen-Max(60.1%)。
  • 它與Claude-Sonnet-3.7(68.0%)非常接近,並且略低於GPT-4.5(71.4%)。
  • 解讀:它在困難的專家級問題上表現出強大的推理能力,表現與Claude-Sonnet-3.7基本等效項,並且與GPT-4.5競爭激烈。

MATH-500(標準數學):

  • DeepSeek-V3-0324得分為94.0%。
  • 這是所有模型中的最高分,超過了GPT-4.5(90.7%)、DeepSeek-V3(90.2%)、Qwen-Max(82.6%)和Claude-Sonnet-3.7(82.2%)。
  • 解讀: DeepSeek-V3-0324在這個標準的具有挑戰性的數學基準測試中表現出最先進的性能(在這個組別中),表明其具有出色的數學推理能力。

AIME 2024(高級最新數學):

  • DeepSeek-V3-0324得分為59.4%。
  • 這個成績明顯高於所有其他模型:DeepSeek-V3(39.6%)、GPT-4.5(36.7%)、Qwen-Max(26.7%)和Claude-Sonnet-3.7(23.3%)。
  • 解讀:這是一個突出的結果。DeepSeek-V3-0324在非常困難且最新的數學問題上表現出色,顯著優於強大的競爭對手GPT-4.5和Claude-Sonnet-3.7。這表明它在這一特定任務上可能具有更優越的數學訓練或架構優勢。

LiveCodeBench(程式設計):

  • DeepSeek-V3-0324得分為49.2%。
  • 這是最高分,領先於GPT-4.5(44.4%)、Claude-Sonnet-3.7(42.2%)、DeepSeek-V3(39.2%)和Qwen-Max(38.7%)。
  • 解讀:DeepSeek-V3-0324在這個基準測試中表現出最強的程式設計能力,表明其在生成正確代碼解決方案方面具有熟練的能力。

總結結論:

根據這個圖表,DeepSeek-V3-0324是一款能力非常強的大型語言模型。它比其前身(DeepSeek-V3)有顯著的進步。在數學(MATH-500、AIME 2024)和程式設計(LiveCodeBench)方面,它取得了最先進的結果(在比較的模型中),在具有挑戰性的AIME 2024基準測試中尤其領先。儘管在廣泛知識的MMLU-Pro基準測試中略遜於GPT-4.5,但它在一般知識和複雜推理(GPQA)方面仍然具有很強的競爭力,通常超過或與Claude-Sonnet-3.7和Qwen-Max相當。它的優勢在數學和程式設計等技術領域表現得尤為明顯。(總結很到位)

grok3

輸出數據出現錯亂(張冠李戴),但整體內容邏輯結構是可以的。

具體內容如下:

回答用戶查詢

使用者提供了一張不同大型語言模型的測評圖表,要求首先解讀各個數據集的含義和作用,然後以 DeepSeek-V3-0324 為基準對測評結果進行分析。以下是完整的回答:

一、數據集的含義與作用解讀

該圖表評估了五個大型語言模型(DeepSeek-V3、DeepSeek-V3-0324、Qwen-Max、GPT-4.5 和 Claude-Sonnet-3.7)在五個數據集上的性能。以下是對每個數據集的含義和作用的解讀:

MMLU-Pro (EM)

含義: 這可能是 Massive Multitask Language Understanding(MMLU)基準測試的一個變體,“Pro” 表示更高級或專業化的版本。“EM” 代表 Exact Match(精確匹配),即模型輸出必須與正確答案完全一致才算正確。

作用: 該數據集測試模型在多個領域(如科學、人文、社會科學等)的通用知識和推理能力,評估其是否能準確回答廣泛的學術性問題。

GPOA Diamond (Pass@1)

含義: GPOA Diamond 可能是 General Purpose Question Answering(通用問答)數據集的一個子集,“Diamond” 表示高難度或高品質的篩選部分。“Pass@1” 表示評估模型第一次嘗試(即 top-1 預測)的正確性。

作用: 該數據集測試模型在首次嘗試中回答複雜通用問題的能力,側重於深入理解和推理能力。

MATH-500 (Pass@1)

含義: 該數據集包含 500 個數學問題,可能涵蓋高中或大學水準的數學內容。“Pass@1” 表示評估模型第一次嘗試解題的正確性。

作用: 它評估模型的數學推理和問題解決能力,包括計算、定理應用和邏輯推導。

AIME 2024 (Pass@1)

含義: AIME 是 American Invitational Mathematics Examination(美國數學邀請賽)的縮寫,面向高中生的數學競賽,包含具有挑戰性的問題。“2024” 表示該數據集來自 2024 年,“Pass@1” 表示評估第一次嘗試的正確性。

作用: 該數據集測試模型解決高級數學問題的能力,通常需要創造性和分析性思維,超出普通教材範圍。

LiveCodeBench (Pass@1)

含義: 該數據集可能聚焦於程式設計和代碼生成任務,模型需為給定問題生成正確代碼。“Pass@1” 表示評估第一次提交代碼的正確性。

作用: 它評估模型的程式設計技能,包括理解問題規格、編寫功能性代碼以及處理邏輯錯誤的能力。

二、以 DeepSeek-V3-0324 為基準的測評結果分析

DeepSeek-V3-0324(圖表中以深藍色帶斜線表示)作為基準模型,其性能數據如下。我們將逐一分析每個數據集,並與其他模型進行比較:

1. MMLU-Pro (EM)

DeepSeek-V3-0324: 81.2%

DeepSeek-V3: 75.9%(比基準低 5.3%)

Qwen-Max: 76.1%(比基準低 5.1%)

GPT-4.5: 86.1%(比基準高 4.9%)

Claude-Sonnet-3.7: 80.7%(比基準低 0.5%)

分析: DeepSeek-V3-0324 在此數據集上表現良好,但 GPT-4.5 以 86.1% 領先,顯示其在通用知識和推理方面更強。Claude-Sonnet-3.7 與基準非常接近(僅低 0.5%),而 DeepSeek-V3 和 Qwen-Max 稍遜一籌。

2. GPOA Diamond (Pass@1)

DeepSeek-V3-0324: 59.1%

DeepSeek-V3: 68.4%(比基準高 9.3%)

Qwen-Max: 50.1%(比基準低 9.0%)

(開始數據錯亂)

GPT-4.5: 71.4%(比基準高 12.3%)

Claude-Sonnet-3.7: 68.0%(比基準高 8.9%)

分析: DeepSeek-V3-0324 在此數據集上的表現較弱(59.1%),被大多數模型超越。GPT-4.5 以 71.4% 居首,DeepSeek-V3 和 Claude-Sonnet-3.7 表現相近且優於基準。Qwen-Max 表現最差,表明其處理複雜通用問題能力不足。

3. MATH-500 (Pass@1)

DeepSeek-V3-0324: 94.0%

DeepSeek-V3: 90.2%(比基準低 3.8%)

Qwen-Max: 82.6%(比基準低 11.4%)

GPT-4.5: 90.7%(比基準低 3.3%)

Claude-Sonnet-3.7: 82.2%(比基準低 11.8%)

分析: DeepSeek-V3-0324 以 94.0% 的高準確率領先,展現出卓越的數學解題能力。GPT-4.5 和 DeepSeek-V3 接近但稍遜一籌,而 Qwen-Max 和 Claude-Sonnet-3.7 表現明顯較差,數學推理能力較弱。

4. AIME 2024 (Pass@1)

DeepSeek-V3-0324: 59.4%

DeepSeek-V3: 39.6%(比基準低 19.8%)

Qwen-Max: 26.7%(比基準低 32.7%)

GPT-4.5: 36.7%(比基準低 22.7%)

Claude-Sonnet-3.7: 23.3%(比基準低 36.1%)

分析: DeepSeek-V3-0324 在此高難度數學數據集上以 59.4% 遙遙領先,顯著優於其他模型。DeepSeek-V3 和 GPT-4.5 位列其次,但差距較大。Qwen-Max 和 Claude-Sonnet-3.7 表現最差,顯示其在高級數學問題上的局限性。

5. LiveCodeBench (Pass@1)

DeepSeek-V3-0324: 49.2%

DeepSeek-V3: 39.2%(比基準低 10.0%)

Qwen-Max: 44.4%(比基準低 4.8%)

GPT-4.5: 38.7%(比基準低 10.5%)

Claude-Sonnet-3.7: 42.2%(比基準低 7.0%)

分析: DeepSeek-V3-0324 以 49.2% 領先程式設計任務,儘管準確率不算很高。Qwen-Max 和 Claude-Sonnet-3.7 稍遜一籌,DeepSeek-V3 和 GPT-4.5 表現最差,表明其程式設計能力較弱。

三、總體分析

DeepSeek-V3-0324 的優勢與劣勢

優勢:

在數學任務(MATH-500 和 AIME 2024)上表現突出,分別達到 94.0% 和 59.4%,遠超其他模型。

在程式設計任務(LiveCodeBench)上以 49.2% 領先,顯示出較強的代碼生成能力。

在 MMLU-Pro 上獲得 81.2%,表現穩健但並非最佳。

劣勢:

在 GPOA Diamond 上僅得 59.1%,落後於大多數模型,表明其在處理複雜通用問答時存在局限性。

與其他模型的比較

DeepSeek-V3: 除 GPOA Diamond(68.4%)優於基準外,其餘數據集均表現不如 DeepSeek-V3-0324,尤其在 AIME 2024 上差距明顯(低 19.8%)。

Qwen-Max: 在所有數據集上均低於 DeepSeek-V3-0324,尤其在 AIME 2024 上表現極差(僅 26.7%),整體性能較弱。

GPT-4.5: 在 MMLU-Pro(86.1%)和 GPOA Diamond(71.4%)上超越基準,但在數學和程式設計任務上落後,尤其在 AIME 2024 上低 22.7%。

Claude-Sonnet-3.7: 在 MMLU-Pro(80.7%)和 GPOA Diamond(68.0%)上與基準接近或稍優,但在數學任務(MATH-500 和 AIME 2024)上差距顯著(低 11.8% 和 36.1%)。

總結

DeepSeek-V3-0324 在數學和程式設計任務上表現出色,是這些領域的佼佼者,但在通用問答能力(GPOA Diamond)上仍有提升空間。相比其他模型,它在數學領域的優勢尤為突出,適合需要強大數學推理和代碼生成能力的場景。如果您有進一步的問題或需要更深入的分析,請隨時告訴我!

O3mini

基礎內容解答品質還可以,進行圖表數據分析,有較多與事實不符或錯亂情況

下面的回答分為兩部分:

1.先解讀圖表中出現的不同數據集(MMLU-Pro、GPOA Diamond、MATH-500、AIME 2024、LiveCodeBench)的含義和作用

2.然後對比這些數據集上的結果,並以 DeepSeek V3-0324 的表現為基準進行分析

注意:數據集含義解答,各個模型效果差別不大,篇幅限制不再展示

2. 以 DeepSeek V3-0324 為基準的測評結果分析

圖中展示了多款大模型(DeepSeek-V3、DeepSeek-V3-0324、Qwen-Max、GPT-4.5、Claude-Sonnet-3.7)在以上 5 個數據集上的表現(一般以“Pass@1”或準確率/百分位數為指標)。下面根據圖表大致數值進行簡要解讀(數值僅根據題主提供的可視化柱狀圖近似讀取):

(A)整體表現概覽

DeepSeek V3-0324相比上一版本DeepSeek V3,在所有數據集上都有不同程度的提升。

各模型在不同數據集上各有側重和優勢:

  • 在MMLU-Pro這類多領域知識評測中,Qwen-Max 表現最好,其次是 DeepSeek V3-0324;GPT-4.5、Claude-Sonnet-3.7 也都在同一水準段。(回答錯誤,這個評測Qwen-Max表現不好的)
  • 在數學類(MATH-500、AIME 2024)評測中,GPT-4.5 往往具備較強的數學推理能力;不過 DeepSeek V3-0324 與之非常接近,甚至在 AIME 2024 上略有領先。(回答錯誤,與圖示事實不符)
  • 在LiveCodeBench這類程式設計測評中,DeepSeek V3-0324 的分數(約 49.2%)高於 Qwen-Max、GPT-4.5、Claude-Sonnet-3.7,顯示出不錯的代碼生成和一次性通過能力。

(B)以 DeepSeek V3-0324 為基準的具體對比

1.MMLU-Pro

  • DeepSeek V3:73.5% →DeepSeek V3-0324:81.2%
  • Qwen-Max:86.1%,GPT-4.5:80.3%,Claude-Sonnet-3.7:78.9%(回答錯誤,與圖示事實不符)

對比來看,V3-0324 較上一版本進步顯著,且超過 GPT-4.5、Claude-Sonnet-3.7,雖然略低於 Qwen-Max,但整體已在高水準區間。

後面還有很多錯誤就不一一標註,大家可以慢慢看

2.GPOA Diamond

  • DeepSeek V3:68.4% →DeepSeek V3-0324:70.1%
  • Qwen-Max:75.3%,GPT-4.5:68.1%,Claude-Sonnet-3.7:70.9%

該數據集上,V3-0324 相比 V3 提升相對有限,但依然超過了 GPT-4.5。與 Qwen-Max、Claude-Sonnet-3.7 則還在同一梯隊,分數相當接近。

3.MATH-500

  • DeepSeek V3:88.0% →DeepSeek V3-0324:91.0%
  • GPT-4.5:92.0%,Qwen-Max:90.7%,Claude-Sonnet-3.7:90.2%

在純數學推理題上,GPT-4.5 以微弱優勢領先,但 V3-0324 也已達 91.0%,非常接近 GPT-4.5;對比其他模型,也處於相對領先地位。

4.AIME 2024

  • DeepSeek V3:50.9% →DeepSeek V3-0324:52.4%
  • Qwen-Max:49.2%,GPT-4.5:48.2%,Claude-Sonnet-3.7:49.7%

這一競賽級難度更高的數學評測中,V3-0324 甚至超越了 Qwen-Max、GPT-4.5 和 Claude-Sonnet-3.7,顯示了在高難度數學推理和創造性解題上的增強。

5.LiveCodeBench

  • DeepSeek V3:44.2% →DeepSeek V3-0324:49.2%
  • Qwen-Max:44.4%,GPT-4.5:42.0%,Claude-Sonnet-3.7:41.2%

在一次性代碼生成(Pass@1)上,V3-0324 同樣取得了領先。對比上一版本有明顯提升,也高於其他主流模型,說明其在程式設計任務上的準確性有所加強。

3. 小結

數據集意義:

MMLU-Pro 測試多學科專業知識;GPOA Diamond 可能更偏開放式或高難度語言理解;MATH-500、AIME 2024 都是高難度數學推理和競賽級題目;LiveCodeBench 則是程式設計能力的測試。

DeepSeek V3-0324 的表現亮點:

  • 相比 DeepSeek V3,全方位都有所提升。
  • 在多領域綜合知識(MMLU-Pro)和程式設計(LiveCodeBench)方面,成績非常突出,部分專案甚至超越 GPT-4.5 和 Claude-Sonnet-3.7。
  • 在高階數學(AIME 2024)中,也體現出強勁的競賽級推理能力。

與其他模型對比:

  • Qwen-Max 在 MMLU-Pro 這類多領域知識上依然保持領先,GPT-4.5 在 MATH-500 等數學題中略有優勢,但 DeepSeek V3-0324 與之差距較小。
  • 在 AIME 2024、LiveCodeBench 等更專精的場景中,DeepSeek V3-0324 取得了更高的分數。

總的來說,這份評測圖表顯示 DeepSeek V3-0324 在多項任務上已經具備了與主流大模型分庭抗禮的能力,尤其在專業知識覆蓋、競賽級數學推理和代碼生成方面有了進一步提升。

其他模型解讀結果較差,就不一一展示

結論

從評測結果和官網發佈內容綜合可知,原生多模態模型在理解數據文字和結構資訊等方面有著明顯的優勢,應該也是2025年模型發展的趨勢。上面圖表對外掛視覺模型很多時候,是無法提取圖片的數字資訊,以及把數據與柱狀圖進行正確匹配的。

本文由 @帥森森 原創發佈於人人都是產品經理。未經作者許可,禁止轉載

題圖來自Unsplash,基於CC0協定

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供資訊存儲空間服務