谷歌 Veo 2 升級可生成更具電影感視頻，文本、音訊 AI 同步升級

更新于：2025-04-10 15:38:33

IT之家 4 月 10 日消息，谷歌為其視頻 AI 模型 Veo 2 推出新功能，旨在幫助使用者更輕鬆地生成具有電影質感的畫面以及編輯真實視頻。這些新增的 Veo 2 功能目前可通過谷歌雲的 Vertex AI 平台進行預覽，與此同時，谷歌還對文本轉圖像生成器 Imagen 3 以及音訊相關 AI 模型進行了更新。

據IT之家瞭解，Veo 2 的新功能包括修復功能（inpainting）和外擴功能（outpainting）。谷歌表示，修復功能可以自動移除視頻中的“不想要的背景圖像、標誌或干擾元素”，而外擴功能則能夠將原始視頻的畫面進行擴展，該工具會用 AI 生成的視頻片段填充新增的空間，使其與原始片段自然融合，類似於 Adobe 為圖像提供的生成式擴充功能。

此次更新還允許 Veo 2 使用者在生成畫面時，將電影拍攝技巧預設與文字描述一同選用，以便指導最終結果中的鏡頭構圖、拍攝角度和節奏。例如，預設包括延時效果、無人機視角以及類比不同方向的鏡頭平移等。

此外，Veo 2 新增了一種插值功能，能夠為兩個靜態圖像之間創建視頻過渡，為開頭和結尾序列填充新的幀。

Adobe 的競爭產品 Firefly 視頻模型也具備一些類似的功能，其生成式 AI 視頻擴展功能於上周在 Premiere Pro 中推出。谷歌還在其 AI 生成的輸出中加入了 SynthID 數位歸屬浮水印，類似於 Adobe 的內容憑證系統。不過，Adobe 進一步承諾其工具完全可用於商業用途，因為它們是基於授權和公有領域內容進行訓練的，而谷歌在訓練其 AI 模型時大量抓取了網路上的內容，無法達到這一標準。

在文字轉圖像模型 Imagen 3 方面，谷歌對其編輯功能進行了更新，聲稱可以“顯著”提升自動移除物體的效果，使移除干擾元素后的結果看起來更加自然。Veo 2 和 Imagen 3 已被包括歐萊雅和卡夫亨氏在內的公司用於營銷內容製作。卡夫亨氏的數字體驗負責人賈斯汀・湯瑪斯表示，過去需要八周才能完成的任務，現在只需八小時。

在音訊領域，谷歌推出了其文本轉音樂模型 Lyria 的私人預覽版，併為其合成語音模型 Chirp 3 推出了“即時定製語音”功能。谷歌稱，Chirp 3 現在能夠從 10 秒的音訊輸入中生成“逼真的定製語音”，並且正在推出一項新的轉錄功能預覽，該功能可以識別並分離出多人對話中的各個說話者，從而為多參與者的談話提供更清晰的轉錄。

這些更新只是谷歌今日宣佈的一系列 AI 相關消息中的一部分。谷歌效率優化型 Flash 模型的最新版本 Gemini 2.5 Flash 即將登陸 Vertex AI。谷歌表示，Gemini 2.5 Flash 會根據任務的複雜程度“自動調整處理時間”，以便為簡單請求提供更快的結果。

此外，谷歌本周還將更新其面向企業的 Agentic AI 工具，使 AI 代理能夠在不同平臺（如 PayPal 和 Salesforce）之間相互溝通並執行任務。同時，谷歌雲市場將推出一個新板塊，供企業瀏覽和購買由第三方谷歌合作夥伴構建的 AI 代理。