Gemini 2.5 Pro 實測:或將成為最實用的推理模型
更新于:2025-03-31 10:53:39

不幸的是,Google 最新旗艦語言模型 Gemini 2.5 Pro 的發佈,被吉卜力工作室 AI 圖像風波所掩蓋。也許是吸取了之前失敗發佈的教訓,Google 謹慎地將其描述為"我們最智慧的 AI 模型",而不像其他 AI 實驗室那樣宣稱自己的新模型是世界最佳。

然而,實際測試表明,Gemini 2.5 Pro 確實令人印象深刻,可能是目前最優秀的推理模型。這為許多新應用開闢了道路,並可能使 Google 在生成式 AI 競賽中處於領先地位。

具備出色程式設計能力的超長上下文

Gemini 2.5 Pro 最突出的特點是其超長的上下文視窗和輸出長度。該模型可以處理多達 100 萬個 token (即將支援 200 萬),使其能夠在需要時將多個長文檔和完整的代碼庫裝入提示中。該模型的輸出限制為 64,000 個 token,而其他 Gemini 模型僅為 8,000 左右。

長上下文視窗也支援更長時間的對話,因為每次與推理模型的交互都可能產生數萬個 token,特別是在涉及代碼、圖像和視頻時(我在使用 Claude 3.7 Sonnet 時就遇到了這個問題,它的上下文視窗為 200,000 個 token)。

例如,軟體工程師 Simon Willison 使用 Gemini 2.5 Pro 為他的網站創建了一個新功能。Willison 在博客中說:"它分析了我的整個代碼庫,找出了所有需要更改的地方——總共 18 個檔,從最終的 PR 中可以看出。整個專案從開始到完成只花了約 45 分鐘,平均每個需要修改的檔不到 3 分鐘。我向它提出了很多其他程式設計挑戰,而評估這些結果的瓶頸變成了我自己的理解能力!"

令人印象深刻的多模態推理

Gemini 2.5 Pro 在非結構化文本、圖像和視頻方面也表現出色。例如,我向它提供了我最近關於基於採樣搜索的文章,並要求它創建一個描述文中演算法的 SVG 圖形。Gemini 2.5 Pro 正確地提取了文章中的關鍵資訊,並為採樣和搜索過程創建了一個流程圖,甚至準確地呈現了條件步驟。(相比之下,同樣的任務使用 Claude 3.7 Sonnet 需要多次交互,而且最終達到了 token 限制。)

生成的圖像有一些視覺錯誤(箭頭位置不正確)。為了改進效果,我接著用多模態提示測試了 Gemini 2.5 Pro,給它一個渲染后的 SVG 檔截圖和代碼,要求它進行改進。結果令人印象深刻,它糾正了箭頭的問題,並提升了圖表的視覺品質。

其他使用者在多模態提示方面也有類似的體驗。例如,在測試中,DataCamp 複現了 Google 博客中展示的跑步遊戲示例,然後將代碼和遊戲視頻錄製提供給 Gemini 2.5 Pro,並要求它對遊戲代碼進行一些修改。該模型能夠對視覺內容進行推理,找到需要更改的代碼部分,並做出正確的修改。

然而值得注意的是,與其他生成模型一樣,Gemini 2.5 Pro 也可能出錯,比如修改不相關的文件和代碼段。指令越精確,模型出錯的風險就越低。

具有實用推理過程的數據分析

最後,我用我典型的混亂數據分析測試來評估 Gemini 2.5 Pro 的推理能力。我提供了一個包含從雅虎財經不同股票歷史頁面複製粘貼的純文本和原始 HTML 數據混合檔。然後要求它計算從 2024 年 1 月到文件中最新日期,每月初投資 140 美元,平均分配到"超級七巨頭"股票的投資組合價值。

模型正確識別了檔中需要的股票(亞馬遜、蘋果、英偉達、微軟、特斯拉、Alphabet 和 Meta),從 HTML 數據中提取金融資訊,並根據每月初的股票價格計算每次投資的價值。它以格式良好的表格形式呈現了每月的股票和投資組合價值,並提供了整個投資在期末的總價值明細。

更重要的是,我發現其推理過程非常實用。雖然不清楚 Google 是否展示 Gemini 2.5 Pro 的原始思維鏈 (CoT) token,但推理過程非常詳細。你可以清楚地看到模型是如何對數據進行推理、提取不同資訊片段,並在生成答案前計算結果的。這有助於排查模型的行為,並在其犯錯時引導它朝正確的方向發展。

企業級推理?

關於 Gemini 2.5 Pro 的一個擔憂是,它只能在推理模式下使用,這意味著即使對於可以直接回答的非常簡單的提示,模型也會經歷"思考"過程。

Gemini 2.5 Pro 目前處於預覽版階段。一旦完整模型發佈並公佈定價資訊,我們將更好地瞭解基於該模型構建企業應用的成本。不過,隨著推理成本持續下降,我們可以期待它在規模化應用中變得更加實用。

儘管 Gemini 2.5 Pro 的首次亮相可能不夠引人注目,但其功能值得關注。其超大的上下文窗口、出色的多模態推理能力和詳細的推理鏈,為從代碼庫重構到精細數據分析等複雜的企業工作負載提供了切實的優勢。