近日,科技巨頭谷歌在人工智慧領域再掀波瀾,緊隨Open AI的密集發佈步伐,於深夜震撼推出其最新力作——Gemini2.0 AI模型。谷歌宣稱,Gemini2.0不僅是其迄今為止最尖端、功能最全面的AI模型,更是業界首個實現原生多模態輸入輸出的創新之作。
Gemini2.0的問世,標誌著谷歌在AI技術上的重大突破。在此之前,谷歌發佈的Gemini-exp-1206模型已憑藉處理200萬個標記(相當於一個多小時的視頻)的卓越能力,在Livebench上名列前茅,僅次於OpenAI的o1-preview,超越Claude 3.5 Sonnet,引發了業界的廣泛關注與猜測。而Gemini2.0的真正亮相,更是將這些期待推向了新的高度。
在性能上,Gemini2.0實現了全面升級。其處理速度較上一代旗艦產品Gemini 1.5 Pro提升了整整兩倍,為用戶帶來了更為高效的處理能力和更快的回應時間。更為引人注目的是,Gemini2.0支援圖片、視頻和音訊等多模態輸入與輸出,能夠直接生成圖像與文本混合的內容,以及原生生成可控的多語言文本轉語音(TTS)音訊。它還能無縫調用Google Search、代碼執行及第三方使用者自定義函數等工具,展現了前所未有的靈活性和實用性。
基於Gemini2.0的強大架構,谷歌進一步推出了三款全新的AI智慧體原型:通用大模型助手Project Astra、瀏覽器助手Project Mariner以及程式設計助手Jules。這些智慧體的問世,標誌著谷歌AI正逐步邁向“Agent”時代的新篇章。
Project Astra作為谷歌AI助手的旗艦產品,具備即時語音和視覺處理能力,能夠通過手機或谷歌眼鏡進行跨文本、音訊、視頻的多模態即時推理。此次升級后的Astra在對話理解、工具調用、記憶能力和回應速度等方面均實現了顯著提升。它不僅能夠更好地理解不同口音和不常見詞彙,還能藉助Gemini 2.0調用Google搜索、鏡頭和地圖等功能,成為使用者日常生活中的得力助手。
Project Mariner則是一個旨在探索人機交互未來的瀏覽器助手。它能夠理解和推理瀏覽器螢幕上的資訊,包括圖元、文本、代碼、圖像和表單等網路元素,並通過實驗性的Chrome擴展程式使用這些資訊完成任務。從登錄雜貨店網站購物到查找航班和酒店、購買家居用品、查找食譜等,Mariner都能輕鬆應對。在WebVoyager基準測試中,Mariner作為單一代理設置實現了83.5%的最佳工作結果。
Jules則是專為程式設計人員打造的AI助手。它直接集成到GitHub工作流程中,能夠查看使用者已有的代碼並直接在GitHub中進行更改,解決開發者在修改bug時遇到的難題。這一切都在用戶的監督之下進行,既保證了安全性又節省了時間。
Gemini2.0還在遊戲、學術研究、機器人等領域展開了嘗試。谷歌與Supercell等遊戲開發商合作,探索智慧體在遊戲中的應用;推出的Deep Research則如同學術研究助手,通過高級推理和長上下文能力直接生成論文;谷歌還計劃將Gemini 2.0的空間推理能力應用於機器人身上,推動機器人的智能化進程。
為了防止濫用,谷歌使用SynthID技術對所有生成的音訊和圖像進行浮浮浮水印標記。同時,谷歌還推出了多模態即時API,幫助開發者構建具有即時音訊和視頻流功能的應用程式。這個API支援來自攝像頭或螢幕的音訊和視頻輸入,能夠處理自然對話模式。
Gemini2.0的強大性能得益於谷歌定製的硬體第六代TPU Trillium。與前代產品相比,Trillium在訓練性能、推理輸送量、峰值計算性能等方面均實現了顯著提升。目前,用戶已可以通過PC端優先體驗Gemini2.0 Flash實驗版,而移動版也將很快面世。
谷歌和Alphabet的首席執行官桑達爾·皮查伊對Gemini2.0慷慨的希望。他表示,如果Gemini 1.0是關於組織和理解資訊的,那麼Gemini 2.0就是為了讓資訊更加有用。其中,“Agent”是人工智慧時代下一個大方向。谷歌此次展示的系統級Copilot和智慧體應用,充分展現了Agent能夠為人們生活帶來的全方位改變。
隨著Gemini2.0的推出以及一系列AI智慧體的問世,谷歌正加速將AI融入其所有產品中。未來,谷歌計劃將Gemini 2.0的先進推理能力引入更多產品功能中,為用戶帶來更加智慧、便捷的體驗。