AIAI 應用案例頭條

Google Gemini 2.0 實測:免費也能玩!看著你的鏡頭畫面即時聊天

Google Gemini 2.0 實測:免費也能玩!看著你的鏡頭畫面即時聊天 Gemini 2.0 AI, Google, 深度, 產業

我們知道,其實生成式 AI 發展到現在,多模態(Multimodality)已經相當成熟。AI 不只能看懂文字、圖像,更可以理解即時對話以及即時影音辨識。或許是出自成本考量,分享鏡頭即時畫面給 AI 的功能,始終沒有大規模普及。

現在,Google Gemini 2.0 來了:即時語音、即時分享鏡頭畫面全都支援,更重要的是,免費仔也能玩!

Google Gemini 2.0 實測:相當強悍的即時畫面辨識能力

Google Gemini 2.0 實測:免費也能玩!看著你的鏡頭畫面即時聊天 Gemini 2.0 AI, Google, 深度, 產業

測試網址:AI Studio

Google 目前免費將「Stream Realtime」功能對所有人開放,無需付費,就可以親身體驗最先進的 AI 玩法。

你可以「跟 Gemini AI 即時口說聊天」或是「將手機、Webcam 鏡頭畫面即時分享給 AI」,Gemini 有能力即時與你進行相當擬真的對話,並且同時看著你分享的鏡頭畫面,分析他看見了什麼!

Google Gemini 2.0 實測:免費也能玩!看著你的鏡頭畫面即時聊天 Gemini 2.0 AI, Google, 深度, 產業

在辨識看見的東西、即時描述出來的動作上,Google Gemini 的辨識速度相當快,幾乎沒什麼延遲!在對話互動上也相當迅速,沒有什麼體驗上的割裂感。

我試著將鏡頭對準我家的狗,Gemini 立刻辨識出「這是一隻狗」,並且正確描述出牠的顏色。

此外,除了一問一答,我還嘗試要求「連續分析」,在鏡頭中看到什麼就說什麼,中途不中斷。

其實它聽得懂中文,只是在詢問時,Gemini 強調自己只懂英文,無論你用哪國語言溝通,它都會用英文回答你。

Google Gemini 2.0 實測:免費也能玩!看著你的鏡頭畫面即時聊天 Gemini 2.0 AI, Google, 深度, 產業

Google Gemini 2.0 也有遺憾:無法說到一半打斷它

Google Gemini 的語音功能不像 OpenAI 的即時語音,你不能打斷他的話。 在某種程度上,它仍然是語音助理最基本的形式,你說一句話,他就回應一句話。

但是,你不需要像發送語音訊息那樣為每個句子暫停或按下按鈕;它會自動偵測你何時說話,然後開始聊天。

Google Gemini 2.0 實測:免費也能玩!看著你的鏡頭畫面即時聊天 Gemini 2.0 AI, Google, 深度, 產業

此外,Google Gemini 2.0 也支援網路連線,能夠從 Google 搜尋引擎找答案。

現在看起來,Google 其實相當清楚使用者需要什麼。OpenAI 想要獨大、占領整個市場,看起來是越來越難了。

Written by
黃郁棋

《科技人》站長,在科技業打滾十年的老屁股,每天都覺得自己要被新技術取代了,完了完了。

公開留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

打賞科技人|祝您有個美好的一天:)