Gemini Live 不僅僅是會對話的 AI,它現在有了"眼睛"。我親自體驗了一下
更新于:2025-04-10 07:59:03

我拿著手機在公寓里走動,一邊錄視頻一邊與 Google 的 Gemini Live 交談。我正在帶著 AI 參觀我的住處,並考驗它能否認出它看到的具體物品。當它識別出我客廳花瓶中的花朵(洋甘菊和石竹)後,我想考考它:我問它能否告訴我剪刀放在哪裡。"我剛才看到你的剪刀就在桌子上,就在那包綠色開心果旁邊。你看到了嗎?"

它說對了,我驚歎不已。

Gemini Live 能識別的不僅僅是家居用品。Google 表示,它可以幫你在擁擠的火車站導航,或者辨認糕點的餡料。它還能提供藝術品的深入資訊,比如物品的來源地以及是否是限量版。

這不只是一個升級版的 Google Lens。你可以與它對話,它也會回應你。我不需要用特定的方式與 Gemini 交談—對話就像日常聊天一樣自然。比起 Google 正在逐步淘汰的舊版 Google Assistant 強多了。

Google 和 Samsung 剛開始正式向所有 Pixel 9 和 Galaxy S25 手機推出這項功能。這些設備可以免費使用該功能,其他 Pixel 手機則需要通過 Google AI Premium 訂閱來訪問。Google 還發佈了一個展示該功能的 2025 年 4 月 Pixel Drop 新 YouTube 視頻,Google Store 上也有了專門的介紹頁面。

你只需要啟動 Gemini,開啟攝像頭並開始對話即可。

Gemini Live 是 Google 的 Project Astra 的延續,該專案去年首次亮相,可能是該公司最具"未來感"的功能,是生成式 AI 能力的實驗性下一步,超越了像 ChatGPT、Claude 或 Gemini 這樣簡單的文字輸入或語音提示聊天機器人。隨著 AI 公司持續大幅提升 AI 工具的能力,從視頻生成到原始計算能力都有顯著提升。與 Gemini Live 類似,蘋果也在去年末以測試版形式發佈了 Visual Intelligence。雖然它的工作方式與 Google 的產品不同,但 iPhone 最終獲得類似功能也不足為奇。

我的重要感悟是,像 Gemini Live 這樣的功能有潛力改變我們與周圍世界的互動方式,只需將攝像頭對準幾乎任何物體,就能將我們的數位世界和物理世界融合在一起。

我對 Gemini Live 進行了真實測試

Gemini Live 提前幾天出現在我的 Pixel 9 Pro XL 上,所以我已經有機會體驗了一下。

第一次嘗試時,當我將一個非常特別的毛絨兔子遊戲收藏品放在攝像頭前時,Gemini 的識別準確度令人震驚。第二次是在藝術畫廊裡向朋友展示時。它不僅識別出了十字架上的烏龜(別問我為什麼),還立即識別並翻譯了烏龜旁邊的漢字,讓我們兩人都感到毛骨悚然,但我想這種感覺還不錯。

在參觀我公寓時,我是按照 Google 去年夏天首次展示這些實時視頻 AI 功能時的演示來做的。我嘗試了公寓里的隨機物品(水果、書籍、潤唇膏),它都能輕鬆識別出來。

然後我開始思考如何對這個功能進行壓力測試。我試圖錄製螢幕來記錄它的運行情況,但在這個任務上總是會出問題。如果我用一些非常規的物品來測試呢?我是恐怖題材的超級粉絲——電影、電視劇、電子遊戲——收藏了無數相關的收藏品、小飾品等。它對這些更冷門的物品表現如何呢?

首先,我要說 Gemini 在同一輪問題中可能會表現得既令人驚歎又令人沮喪。我讓 Gemini 識別了大約 11 個物品,隨著即時會話的進行,有時它的表現會變得更差,所以我不得不將每次會話限制在一兩個物品。我猜測 Gemini 試圖利用先前識別物品的上下文資訊來猜測新物品,這在某種程度上是有道理的,但最終對我和它都沒有説明。

有時,Gemini 表現出色,毫不費力就能給出正確答案,但這通常發生在識別較新或較流行的物品時。例如,當它立即猜出我的一個測試物品不僅來自《命運 2》,而且是去年季節性活動的限量版時,我感到相當驚訝。

在其他時候,Gemini 會完全偏離正確答案,我需要給它更多提示才能讓它接近正確答案。有時,它似乎會利用我之前會話的上下文來得出答案,將多個物品錯誤地識別為來自《寂靜嶺》系列,而實際上並不是。我確實有一個專門用來展示這個遊戲系列的展示櫃,所以我能理解為什麼它會迅速聯想到這個方向。

Gemini 有時會完全出錯。不止一次,Gemini 將某個物品錯誤識別為尚未發佈的《寂靜嶺:f》遊戲中的虛構角色,顯然是將不同作品的元素混在了一起。另一個我經常遇到的問題是,當 Gemini 給出錯誤答案時,即使我纠正它并给出更接近的提示,或直接告訴它正確答案,它仍會重複之前的錯誤答案,就好像這是一個新的猜測。遇到這種情況時,我會關閉工作階段並重新開始,但這並不總是有説明。

我發現的一個技巧是,某些對話比其他對話效果更好。如果我滾動流覽 Gemini 的對話清單,點擊一個曾經正確識別出特定物品的舊對話,然後從那個對話重新開始即時交談,它就能毫無問題地識別這些物品。雖然這不一定令人驚訝,但有趣的是,即使使用相同的語言,某些對話的效果也比其他對話更好。

Google 沒有回應我關於 Gemini Live 工作原理的詢問。

我希望 Gemini 能成功回答我有時非常具體的問題,所以我提供了大量提示來説明它。這些提示通常很有説明,但並不總是有效。以下是我嘗試讓 Gemini 識別並提供資訊的一系列物品。