繼幾個月前發佈首個 Gemini 2.0 AI 模型後,Google 又推出了全新升級。該公司稱新的 Gemini 2.5 Pro Experimental 是其"最智慧"的模型,具有超大的上下文視窗、多模態能力和推理能力。Google 展示了一系列基準測試,顯示新版 Gemini 遠超其他大語言模型 (LLM),我們的測試也證實了這一點——Gemini 2.5 Pro 是我們見過的最令人印象深刻的生成式 AI 模型之一。
與 Google 未來所有的模型一樣,Gemini 2.5 內置推理功能。AI 在生成輸出的過程中會對自身進行事實核查。我們稱之為"類比推理",因為目前沒有證據表明這個過程類似於人類推理。不過,這確實能大幅提升 LLM 的輸出品質。Google 特別提到模型的"主動性"程式設計能力得益於這一過程。例如,Gemini 2.5 Pro Experimental 可以通過單個提示生成一個完整的可運行視頻遊戲。我們已經測試過這個功能,在公開版本中確實可用。
Google 對 Gemini 2.5 Pro 做出了諸多描述:更智慧、更懂上下文、會思考—但很難量化生成式 AI 機器人的提升程度。不過,有一些明顯的技術優勢。Gemini 2.5 Pro 具有 100 萬 token 的上下文視窗,這對 Gemini 大模型來說很常見,但相比 OpenAI GPT 或 Anthropic Claude 等競爭模型要大得多。你可以在單個提示中向 Gemini 2.5 Pro 輸入多本很長的書,輸出最多可達 64,000 個 token。這與 Flash 2.0 相同,但與其他 LLM 相比仍然是相當大的 token 數量。
當然,Google 已經對 Gemini 2.5 Experimental 進行了一系列基準測試,結果略高於其他 AI 系統。例如,在衡量 AI 回答科學和數學複雜問題能力的 GPQA 和 AIME 2025 測試中,它略勝於 OpenAI 的 o3-mini。在由領域專家策劃的 3,000 個問題組成的"人類最後考試"基準測試中,它也創造了新紀錄,Google 新 AI 的得分為 18.8%,而 OpenAI 為 14%。
這些試圖客觀衡量 AI 能力的方法效果如何還不清楚。有時,主觀評估可能更有説明——可以稱之為"氛圍評分"。Google 的新 AI 已經位居 LMSYS Chatbot 競技場排行榜榜首,這是一個值得注意的成就。這表明使用者普遍更喜歡 Gemini 2.5 Pro Experimental 的輸出,而不是 OpenAI o3-mini、Grok、DeepSeek 等產品的輸出。
即時 AI 升級
在使用 Gemini 2.5 Pro Experimental 時,我們也感受到了良好的體驗。我們向 Gemini 2.5 提出了一些複雜的任務——這些任務經常讓 2.0 模型感到困惑——升級后的 AI 處理得更好。程式設計、數學和科學問題的表現也比之前版本的 Gemini 更好。
Google 的新專業模型速度也非常快。它仍然像其他模型一樣逐個輸出 token,在"推理"過程中得出答案,但整體感覺比最新的 OpenAI 和 Anthropic 模型都要快。Google 擁有大量 AI 計算資源,這裏顯然得到了很好的利用。這也解釋了為什麼像 Gemini 2.5 Pro Experimental 這樣的 Gemini 模型具有如此大的上下文視窗——在這種情況下,大約是 o3-mini 輸入限制的五倍。而這僅僅是開始,Google 表示上下文視窗很快將增加到 200 萬個 token。
幾個月前發佈時,Google 的 2.0 Pro 模型看起來相當令人印象深刻,但那個 AI 已經成為過去。Google 表示,Gemini 2.5 Pro 是 2.0 的直接替代品,擁有 Gemini Advanced 訂閱 (每月 20 美元) 的使用者都可以在 Google 的各種產品中使用它。新模型現在已在移動應用程式和網頁上可用,也可以在 Google 的 AI Studio 中使用。它很快也將在 Vertex AI 中推出。
Google 尚未公佈 Gemini 2.5 Pro Experimental 的 API 定價,但目前你能用它做的事情也不多。Google 設置了與舊實驗模型相同的每日 50 條消息限制,目前是免費的。不過這種情況將會改變。Google 的 Logan Kilpatrick 在 X (前 Twitter) 上表示,2.5 Pro Experimental 將是第一個具有更高 API 限制和定價的實驗模型。具體細節將在稍後公佈。