Gemini 大模型逆襲，給了 Google Cloud「AI 基建」的勇氣

更新于：2025-04-12 05:05:42

北京時間 4 月 10 日淩晨，Google Cloud Next 2025 正式揭開序幕。

如果用「AI 屆的蘋果發佈會」來形容每年的英偉達硬體發佈會，那「AI 屆的 CES」或許更適合用來形容今年的 Google Cloud Next；雖然同樣令人興奮，但每一個來到現場的人都帶著自己的問題，現場隨處可見各種務實的交流。

三個月前，同樣是拉斯維加斯，這個場館這個舞臺上，黃仁勳同樣以 AI 為主題的演講，揭開了 CES2025 的序幕。

但即使是老黃的主題演講，都不及今天的 Google Cloud Next 開幕主題演講座無虛席；即使場內已經人滿為患，仍然有大量的人在門口排隊，等待有空缺位置時第一時間入場。

之所以沒有老黃的個人魅力，Google 的動作仍然能被如此多的業界人士關注，顯然是因為 Google 如今在 AI 模型應用部署領域的統治地位。有了 Gemini 2.5 Pro 的打底，Google 今年在 AI 領域的影響力已經處於第一梯隊，但對於 Google Cloud 來講，如何將這部分能力，轉化給全世界的用戶的實際使用中，才是這屆 Next25 最需要給全球使用者解答的問題。

不僅有針對推理模型優化的第一代 Google Tensor TPU 晶片，還有 Gemini 能力在 Google Workspace 生態中的進一步「植入」，甚至祭出了「本地部署 Gemini」這樣的大招。以及讓不少業內人士感到興奮的「Agent2Agent」溝通協定。

網友對 Google Cloud Next 發佈產品的評價｜來源：X

僅僅是首日的主題演講，Google 就已經展現出幾乎是在 AI 應用領域「全方位出擊」的產品規劃，並且在幾乎每一個領域都拿出了業內最前沿的思考與解決方案。

難怪有不少網友，在看完 Google Cloud Next 25 的主題演講全部內容后，直呼「Google 真的是目前大模型廠商中開啟了「上帝模式」的選手」。

新模型

作為 Google CEO 皮查伊上台親自發佈的產品，Gemini 2.5 Flash 與它的前輩 Gemini 2.5 Pro 不同，這是一款「提供強大性能的同時注重效率」的推理模型。

據皮查伊介紹，Gemini 2.5 Flash 主打賣點是提供「動態且可控的」計算能力，允許開發者根據查詢的複雜性，手動調整處理時間。「你可以根據具體需求調整速度、準確性和成本之間的平衡。這種靈活性對於在高流量、成本敏感的應用中優化模型的性能至關重要」。

根據在現場與 Google 工程師的交談，他指出 2.5 Pro 在處理一些簡單的問題時，仍容易出現「過度思考」導致其回應速度大幅降低的問題。這也是 2.5 Flash 在體驗中力求解決的難點。但最終他們的目標，還是進一步改善模型的動態思考能力，並將更多控制權開放給使用者。

作為打響大模型性價比大戰第一槍的選手，Google 還特別提到了與 DeepSeek R1 這樣「價格較低但性能良好的模型」的對比，表示 2.5 Flash 非常適合在「高流量」和「即時」應用的商用場景——例如客戶服務和文檔解析。

除了新模型，Google 還放出了將最新模型「本地部署」這樣的策略，來讓已經有自己數據中心、或是有著更高數據管理要求的客戶，能夠使用現有的硬體設施，快速在自己的服務中部署 Gemini 2.5 Flash 的能力。

Google 計劃從第三季度開始，將 2.5 Flash 這樣的 Gemini 模型引入本地部署環境。該公司的 Gemini 模型將可在 Google Distributed Cloud ( GDC ) 上使用，同時表示 Google 也正在與英偉達合作，將 Gemini 模型引入符合 GDC 規範的 Nvidia Blackwell 系統。

新工具

作為 Google Cloud 託管的 AI 工具部署平臺，Vertex AI 也在今天得到了幾乎是「全模態」的更新，新的視頻、圖像、語音和音樂生成 AI 工具都將登陸 Vertex AI。

其中最值得關注的，就是視頻生成模型 Veo 2 的更新，新增的編輯和相機控制功能，除了可以自動「從視頻中移除不需要的背景圖像、徽標或干擾物」。還能將原始視頻的畫面擴展，進一步填充原本的空白內容。這個工具會用 AI 生成的、能與原始片段融合的視頻素材來填充新的空間。

此次更新還允許 Veo 2 使用者在生成素材時，除了文本描述外，還可以選擇電影技巧預設，用於指導最終結果中的鏡頭構圖、攝像機角度和節奏。包括延時攝影效果、無人機風格的第一人稱視角（POV）以及類比不同方向的攝像機平移。

此外，本次更新還增加了一個新的插值（Interpolation）功能，可以在兩個靜態圖像之間創建視頻過渡，用新的幀填充開頭和結尾序列。

只需給出一個起始幀和最終幀，Veo 2 就會生成連接兩者的視頻。

文字轉圖像模型 Imagen 3 的編輯功能也得到了更新，Google 表示本次更新「顯著」改進了自動物件移除時的自然效果。

據現場相關業務負責人介紹，Veo 2 和 Imagen 3 已經被歐萊雅等公司用於設計營銷內容。負責人 Justin Thomas 表示，過去「需要八周才能完成的圖像處理任務，現在只需八小時」。

這些更新發佈之後，使 Vertex AI 成為目前市面上唯一一個覆蓋了視頻、圖像、語音和音樂的內容生成模型的平臺。

除了面向當下需求的新工具，Google 還公佈了一項新的開放協定—— Agent2Agent ( A2A ) ，旨在連接不同生態系統中的 AI Agents。

這個概念聽起來似乎與時下非常流行的 MCP 協定有些相似之處，但不同之處在於，MCP 是為了解決 LLM 與工具之間的溝通，而 A2A 則是 Agent 與 Agent 之間的對話，就像是屬於 AI 的全新語言。

Google 表示，A2A 協定將使企業能夠更便捷地部署 AI Agent 產品，因為它解決了構建在不同供應商生態系統上的代理無法相互通信的挑戰。

在現場，還演示了一個具體的案例：例如在同一個 UI 介面下，系統可以使用一個 Agent 來根據位置與技能，在面試中篩選候選人，在篩選完成、並且完成初步的面試后，系統可以自動將生成的資訊快速傳輸給另一個設計用於候選人背景審查的 AI Agent 工具，在這個過程中，大幅降低 AI 與 AI 之間的資訊損耗。

這套系統顯然在未來越來越多 AI Agent 投入應用的時代，有著很強的需求。根據代理式數位工作平臺 DoozerAI 的聯合創始人 Paul Chada 的說法，A2A 協定提供的互操作性將使企業能夠自動化跨越多個系統的複雜工作流程，從而可能在降低集成成本的同時提高生產力。

Google 同時還介紹，A2A 協定建立在現有流行的標準之上，包括 HTTP、SSE 和 JSON-RPC；其中 HTTP 是網路通信的基礎，而 SEE 和 JSON-RPC 分別是向客戶端伺服器發送更新的基礎協定，以及應用程式使用 JSON 消息進行遠端相互通信的基礎協定。

盡可能多的利用現有的協定，目標是能夠盡可能降低這個全新的協定，在現有服務中部署的難度，使其更容易與企業已在使用的現有 IT 堆疊集成。即使這仍然是一個短期內充滿挑戰的事，但仍然讓現場的不少開發者感到興奮，隨處可以聽到關於這個「Agent 之間的新語言」的討論。

新硬體

對於 Google 來講，在 AI 領域的統治級地位，除了提供完善的軟體能力，在硬體領域多年的投入帶來的成果如同左右手一般必不可少，因此今天除了一系列軟體服務更新，Google 今天還發佈了最新的第七代 Tensor 處理單元（TPU）Ironwood。