IT之家 4 月 13 日消息,谷歌 DeepMind 首席執行官 Demis Hassabis 在由領英聯合創始人 Reid Hoffman 共同主持的播客節目 Possible 中透露,谷歌計劃將旗下的 Gemini AI 模型與 Veo 視頻生成模型進行融合,以此提升 Gemini 對物理世界的理解能力。
Hassabis 表示:“我們從一開始就將 Gemini 這一基礎模型打造為多模態模型,因為我們有著構建一個通用數位助手的願景,這個助手能夠在現實世界中真正為你提供説明。”
目前,整個 AI 行業正逐漸朝著“全能”模型的方向發展,這些模型能夠理解和整合多種媒體形式。谷歌最新的 Gemini 模型不僅可以生成圖像和文本,還能生成音訊;而 OpenAI 在 ChatGPT 中的預設模型如今也能創建圖像,包括宮崎駿風格的藝術作品。亞馬遜也宣布計劃在今年晚些時候推出一款“任意到任意”的模型。
據IT之家瞭解,這些“全能”模型需要大量的訓練數據,包括圖像、視頻、音訊、文本等。Hassabis 暗示,Veo 的視頻數據主要來源於谷歌旗下的 YouTube 平臺。他說道:“通過觀看大量的 YouTube 視頻,Veo 2 能夠瞭解世界的物理規律。”此前,谷歌曾向 TechCrunch 表示,其模型可能會根據與 YouTube 創作者達成的協定,使用“部分”YouTube 內容進行訓練。據報導,該公司去年擴大了服務條款的部分內容,以便獲取更多數據來訓練其 AI 模型。