Gemini 2.5 Pro 問世：提供更強大的性能和更出色的體驗

至頂頭條 gemini pro 谷歌 gpt 模型 m3 上下文红魔芯片 oppo reno

更新于：2025-03-27 12:43:41

繼幾個月前發佈首個 Gemini 2.0 AI 模型後，Google 又推出了全新升級。該公司稱新的 Gemini 2.5 Pro Experimental 是其"最智慧"的模型，具有超大的上下文視窗、多模態能力和推理能力。Google 展示了一系列基準測試，顯示新版 Gemini 遠超其他大語言模型 (LLM)，我們的測試也證實了這一點——Gemini 2.5 Pro 是我們見過的最令人印象深刻的生成式 AI 模型之一。

與 Google 未來所有的模型一樣，Gemini 2.5 內置推理功能。AI 在生成輸出的過程中會對自身進行事實核查。我們稱之為"類比推理"，因為目前沒有證據表明這個過程類似於人類推理。不過，這確實能大幅提升 LLM 的輸出品質。Google 特別提到模型的"主動性"程式設計能力得益於這一過程。例如，Gemini 2.5 Pro Experimental 可以通過單個提示生成一個完整的可運行視頻遊戲。我們已經測試過這個功能，在公開版本中確實可用。

Google 對 Gemini 2.5 Pro 做出了諸多描述：更智慧、更懂上下文、會思考—但很難量化生成式 AI 機器人的提升程度。不過，有一些明顯的技術優勢。Gemini 2.5 Pro 具有 100 萬 token 的上下文視窗，這對 Gemini 大模型來說很常見，但相比 OpenAI GPT 或 Anthropic Claude 等競爭模型要大得多。你可以在單個提示中向 Gemini 2.5 Pro 輸入多本很長的書，輸出最多可達 64,000 個 token。這與 Flash 2.0 相同，但與其他 LLM 相比仍然是相當大的 token 數量。

當然，Google 已經對 Gemini 2.5 Experimental 進行了一系列基準測試，結果略高於其他 AI 系統。例如，在衡量 AI 回答科學和數學複雜問題能力的 GPQA 和 AIME 2025 測試中，它略勝於 OpenAI 的 o3-mini。在由領域專家策劃的 3,000 個問題組成的"人類最後考試"基準測試中，它也創造了新紀錄，Google 新 AI 的得分為 18.8%，而 OpenAI 為 14%。

這些試圖客觀衡量 AI 能力的方法效果如何還不清楚。有時，主觀評估可能更有説明——可以稱之為"氛圍評分"。Google 的新 AI 已經位居 LMSYS Chatbot 競技場排行榜榜首，這是一個值得注意的成就。這表明使用者普遍更喜歡 Gemini 2.5 Pro Experimental 的輸出，而不是 OpenAI o3-mini、Grok、DeepSeek 等產品的輸出。

即時 AI 升級

在使用 Gemini 2.5 Pro Experimental 時，我們也感受到了良好的體驗。我們向 Gemini 2.5 提出了一些複雜的任務——這些任務經常讓 2.0 模型感到困惑——升級后的 AI 處理得更好。程式設計、數學和科學問題的表現也比之前版本的 Gemini 更好。

Google 的新專業模型速度也非常快。它仍然像其他模型一樣逐個輸出 token，在"推理"過程中得出答案，但整體感覺比最新的 OpenAI 和 Anthropic 模型都要快。Google 擁有大量 AI 計算資源，這裏顯然得到了很好的利用。這也解釋了為什麼像 Gemini 2.5 Pro Experimental 這樣的 Gemini 模型具有如此大的上下文視窗——在這種情況下，大約是 o3-mini 輸入限制的五倍。而這僅僅是開始，Google 表示上下文視窗很快將增加到 200 萬個 token。

幾個月前發佈時，Google 的 2.0 Pro 模型看起來相當令人印象深刻，但那個 AI 已經成為過去。Google 表示，Gemini 2.5 Pro 是 2.0 的直接替代品，擁有 Gemini Advanced 訂閱 (每月 20 美元) 的使用者都可以在 Google 的各種產品中使用它。新模型現在已在移動應用程式和網頁上可用，也可以在 Google 的 AI Studio 中使用。它很快也將在 Vertex AI 中推出。

Google 尚未公佈 Gemini 2.5 Pro Experimental 的 API 定價，但目前你能用它做的事情也不多。Google 設置了與舊實驗模型相同的每日 50 條消息限制，目前是免費的。不過這種情況將會改變。Google 的 Logan Kilpatrick 在 X (前 Twitter) 上表示，2.5 Pro Experimental 將是第一個具有更高 API 限制和定價的實驗模型。具體細節將在稍後公佈。