我們知道,其實生成式 AI 發展到現在,多模態(Multimodality)已經相當成熟。AI 不只能看懂文字、圖像,更可以理解即時對話以及即時影音辨識。或許是出自成本考量,分享鏡頭即時畫面給 AI 的功能,始終沒有大規模普及。
現在,Google Gemini 2.0 來了:即時語音、即時分享鏡頭畫面全都支援,更重要的是,免費仔也能玩!
Google Gemini 2.0 實測:相當強悍的即時畫面辨識能力
測試網址:AI Studio
Google 目前免費將「Stream Realtime」功能對所有人開放,無需付費,就可以親身體驗最先進的 AI 玩法。
你可以「跟 Gemini AI 即時口說聊天」或是「將手機、Webcam 鏡頭畫面即時分享給 AI」,Gemini 有能力即時與你進行相當擬真的對話,並且同時看著你分享的鏡頭畫面,分析他看見了什麼!
在辨識看見的東西、即時描述出來的動作上,Google Gemini 的辨識速度相當快,幾乎沒什麼延遲!在對話互動上也相當迅速,沒有什麼體驗上的割裂感。
我試著將鏡頭對準我家的狗,Gemini 立刻辨識出「這是一隻狗」,並且正確描述出牠的顏色。
此外,除了一問一答,我還嘗試要求「連續分析」,在鏡頭中看到什麼就說什麼,中途不中斷。
其實它聽得懂中文,只是在詢問時,Gemini 強調自己只懂英文,無論你用哪國語言溝通,它都會用英文回答你。
Google Gemini 2.0 也有遺憾:無法說到一半打斷它
Google Gemini 的語音功能不像 OpenAI 的即時語音,你不能打斷他的話。 在某種程度上,它仍然是語音助理最基本的形式,你說一句話,他就回應一句話。
但是,你不需要像發送語音訊息那樣為每個句子暫停或按下按鈕;它會自動偵測你何時說話,然後開始聊天。
此外,Google Gemini 2.0 也支援網路連線,能夠從 Google 搜尋引擎找答案。
現在看起來,Google 其實相當清楚使用者需要什麼。OpenAI 想要獨大、占領整個市場,看起來是越來越難了。
公開留言