Google 在 2025 年的巴塞隆納世界行動通訊大會(MWC)上,正式發佈了 Google Gemini 的兩項重大功能更新:「螢幕共享」功能以及「影片互動查詢」功能。一言以蔽之,就是「AI 視覺共享」的時代來臨了。
這次 Google 帶來的新功能,意味著人類與 AI 的互動模式,即將從「聊天室問答」演進為「視覺共享」,生成式 AI 的典範轉移在今年就會到來。

Google Gemini 從被動聊天到主動視覺感知
說到 Google Gemini 的「視覺共享」功能,其實《科技人》早在 2024 年 12 月 12 日就分享過 Google 正在進行的實驗:Google Gemini 2.0 實測:免費也能玩!看著你的鏡頭畫面即時聊天。只不過,當時還是測試階段,現在 Google 要正式將「AI 視覺共享」功能推送給所有人了。
Google 此次發布的兩項新功能,徹底改變了使用者與 AI 的互動模式:
螢幕共享功能(Screenshare):允許使用者將手機螢幕內容即時分享給 Gemini 並提問。例如,當你瀏覽一條寬鬆牛仔褲時,可直接詢問 Gemini:「這條褲子適合搭配什麼衣物?」AI 會基於螢幕上的視覺內容提供建議。
影片互動查詢:使用者可以在錄製影片的同時,向 Gemini 詢問關於錄製中影片內容的相關問題,實現即時影像的分析與回饋。
值得注意的是,這兩項功能已經不再處於「測試」狀態,Google 將於本月晚些時候向訂閱 Google One AI Premium 計劃的 Gemini Advanced 用戶開放,正式商用化。
《閃電霹靂車》的「超級阿斯拉」終於實現:AI 助理的重新定義
之所以我認為這次 Google Gemini 的更新意義重大,在於它意味著 AI 助理角色的根本性轉變。反過來說,這不僅是功能的疊加,而是互動模式的革命。
從技術層面看,這是「情境感知 AI」(Context-Aware AI)的實質性突破,就像動畫《閃電霹靂車》中阿斯拉與風見隼人的互動模式那樣:AI 不再只是被動等待指令,而是以一種自然陪伴的方式,與使用者共享視覺感知,並提供即時協助。

這種視覺共感模式(Visual Co-perception Mode)如同讓 AI 共同擁有了「你的眼睛」,AI 轉變為使用者的「第二視角分析師」,形成一種全新的人機共生關係。
AI 視覺共享不只是便利,而是商業模式重塑
「AI 視覺共享」這類技術的應用場景遠超個人使用,它可能會引發多個產業的商業模式創新:
零售業革新:虛實融合導購
- 案例:電商平台 + AI 視覺共享 → 實時視覺導購 → 消費決策輔助
- 說明:使用者只需要將手機對著實體商品,AI 就可以提供即時的比價資訊、給用戶一些建議甚至隨便亂聊,就好像你去日本幫朋友代購,開著鏡頭在藥妝店一邊拍攝一邊聊天那樣。(比喻有點不好,這行為在日本其實不受歡迎哦)

教育業革新:視覺輔助學習
- 案例:教育出版社 + AI 視覺共享 → 課本互動增強 → 學習效率提升
- 說明:學生只要拿起手機掃描課本頁面,AI 就可以即時與學生互動,就像一個 24 小時陪伴的家教那樣,提供補充材料、解答學生難題。很多時候,學生不是不願意學,而是沒有人願意慢下來陪他慢慢學、慢慢討論與理解,掉隊後就乾脆放棄學習了。人類的特別輔導會有額外壓力,但 AI 不是人類,想陪多久、就陪多久。

製造業革新:即時品質檢測系統
- 案例:消費級影像識別 → 工業級視覺檢測 → 生產線不良率降低
- 說明:未來操作員可以簡單的用手機掃描生產線上的產品,擺在一邊錄製,AI 就能即時識別瑕疵,並提供處理建議。

AI 的未來路線:從片段使用到 24 小時全程陪伴
Google Gemini 這次的更新,僅僅是 AI 助理演進的開端。估計在不久的將來(真的不會太久),AI 助理將實現從「按需啟動」到「全時陪伴」的轉變。
就如同前面提過的:「未來你的 AI 助理,將會成為無時無刻陪著你的夥伴,你看得到的東西,AI 也看得到,並且隨時從旁協助。」這不再是遙遠的未來想像,而是 2025 年已經開始發生的變革。
從被動型交互(Reactive Interaction) → 共感式陪伴(Co-perceptive Companionship) → 最終實現預測性協助(Predictive Assistance),未來的 AI 可能會在你需要之前,就預判你的需求並提供解決方案。

例如,你正在廚房煮湯,電話來了走出廚房接電話,一不小心聊得太久:AI 視覺透過家用監視器注意到「湯已經開始冒煙,人類卻沒有發現」,於是主動發出警報通知用戶去關火。諸如此類,AI 就像一個全能管家,無時無刻照顧人類的一切需要。
隱私與倫理考量:技術與信任的平衡
當然,這類「AI 可看見你所見」的功能,必然會帶來重大隱私考量與爭議。在我看來,隱私保護將成為決定此類技術普及速度的關鍵因素:
- 資料處理位置爭議:本地處理 vs. 雲端分析
- 資料保留政策:即時分析後立刻移除 vs. 長期學習後改進功能
- 使用者控制機制:選擇性分享 vs. 全程監控

技術提供者需要建立透明的隱私保護機制,才有可能獲得使用者的長期信任。其實類似的爭議,在微軟推出 Windows Recall 這項功能時就已經引發許多討論,資訊安全絕對是 AI 發展最重要的事情,同時也是最大的阻礙。
Google 此次幫 Gemini 推出的「AI 視覺感知」功能,意味著 AI 助理從「聊天機器人」向「感知共享夥伴」的演進,這不僅是技術升級,更是互動模式的根本轉變。這項功能預計 2025 年 Q1 就會正式對外開放給 Gemini Advanced 用戶使用,我們可以認真期待,科技帶給人類生活的改變。
如果 Google Gemini 可以結合行車記錄器,即時聊天、監控路況,再接入汽車的各項車用功能,那完全就是阿斯拉囉。
公開留言