谷歌Gemini2.0震撼發佈，AI Agent時代正式拉開帷幕？

更新于：2025-03-31 07:11:06

近日，科技巨頭谷歌在人工智慧領域再掀波瀾，緊隨Open AI的密集發佈步伐，於深夜震撼推出其最新力作——Gemini2.0 AI模型。谷歌宣稱，Gemini2.0不僅是其迄今為止最尖端、功能最全面的AI模型，更是業界首個實現原生多模態輸入輸出的創新之作。

Gemini2.0的問世，標誌著谷歌在AI技術上的重大突破。在此之前，谷歌發佈的Gemini-exp-1206模型已憑藉處理200萬個標記（相當於一個多小時的視頻）的卓越能力，在Livebench上名列前茅，僅次於OpenAI的o1-preview，超越Claude 3.5 Sonnet，引發了業界的廣泛關注與猜測。而Gemini2.0的真正亮相，更是將這些期待推向了新的高度。

在性能上，Gemini2.0實現了全面升級。其處理速度較上一代旗艦產品Gemini 1.5 Pro提升了整整兩倍，為用戶帶來了更為高效的處理能力和更快的回應時間。更為引人注目的是，Gemini2.0支援圖片、視頻和音訊等多模態輸入與輸出，能夠直接生成圖像與文本混合的內容，以及原生生成可控的多語言文本轉語音(TTS)音訊。它還能無縫調用Google Search、代碼執行及第三方使用者自定義函數等工具，展現了前所未有的靈活性和實用性。

基於Gemini2.0的強大架構，谷歌進一步推出了三款全新的AI智慧體原型：通用大模型助手Project Astra、瀏覽器助手Project Mariner以及程式設計助手Jules。這些智慧體的問世，標誌著谷歌AI正逐步邁向“Agent”時代的新篇章。

Project Astra作為谷歌AI助手的旗艦產品，具備即時語音和視覺處理能力，能夠通過手機或谷歌眼鏡進行跨文本、音訊、視頻的多模態即時推理。此次升級后的Astra在對話理解、工具調用、記憶能力和回應速度等方面均實現了顯著提升。它不僅能夠更好地理解不同口音和不常見詞彙，還能藉助Gemini 2.0調用Google搜索、鏡頭和地圖等功能，成為使用者日常生活中的得力助手。

Project Mariner則是一個旨在探索人機交互未來的瀏覽器助手。它能夠理解和推理瀏覽器螢幕上的資訊，包括圖元、文本、代碼、圖像和表單等網路元素，並通過實驗性的Chrome擴展程式使用這些資訊完成任務。從登錄雜貨店網站購物到查找航班和酒店、購買家居用品、查找食譜等，Mariner都能輕鬆應對。在WebVoyager基準測試中，Mariner作為單一代理設置實現了83.5%的最佳工作結果。

Jules則是專為程式設計人員打造的AI助手。它直接集成到GitHub工作流程中，能夠查看使用者已有的代碼並直接在GitHub中進行更改，解決開發者在修改bug時遇到的難題。這一切都在用戶的監督之下進行，既保證了安全性又節省了時間。

Gemini2.0還在遊戲、學術研究、機器人等領域展開了嘗試。谷歌與Supercell等遊戲開發商合作，探索智慧體在遊戲中的應用；推出的Deep Research則如同學術研究助手，通過高級推理和長上下文能力直接生成論文；谷歌還計劃將Gemini 2.0的空間推理能力應用於機器人身上，推動機器人的智能化進程。

為了防止濫用，谷歌使用SynthID技術對所有生成的音訊和圖像進行浮浮浮水印標記。同時，谷歌還推出了多模態即時API，幫助開發者構建具有即時音訊和視頻流功能的應用程式。這個API支援來自攝像頭或螢幕的音訊和視頻輸入，能夠處理自然對話模式。

Gemini2.0的強大性能得益於谷歌定製的硬體第六代TPU Trillium。與前代產品相比，Trillium在訓練性能、推理輸送量、峰值計算性能等方面均實現了顯著提升。目前，用戶已可以通過PC端優先體驗Gemini2.0 Flash實驗版，而移動版也將很快面世。

谷歌和Alphabet的首席執行官桑達爾·皮查伊對Gemini2.0慷慨的希望。他表示，如果Gemini 1.0是關於組織和理解資訊的，那麼Gemini 2.0就是為了讓資訊更加有用。其中，“Agent”是人工智慧時代下一個大方向。谷歌此次展示的系統級Copilot和智慧體應用，充分展現了Agent能夠為人們生活帶來的全方位改變。

隨著Gemini2.0的推出以及一系列AI智慧體的問世，谷歌正加速將AI融入其所有產品中。未來，谷歌計劃將Gemini 2.0的先進推理能力引入更多產品功能中，為用戶帶來更加智慧、便捷的體驗。