人工智慧
產業
Google
- YouTube
- 地圖
- Chrome
微軟
- Windows
- Office
- Edge
蘋果
- iOS
- macOS
- iPhone
- iPad
- Macbook
- 蘋果穿戴
小工具
其他
- Android
  - OPPO
  - Realme
  - 三星
  - 榮耀
  - 小米
- 華為
  - 鴻蒙
  - 華為穿戴
- 軟體
  - 教學
  - LINE
  - Facebook
  - Instagram
  - Threads
  - X
  - Spotify
  - Netflix
- PlayStation
- 教學
- 評論
- 問與答

AI AI 應用案例產業

寵物保姆 AI 工具：Furbo 寵物監視器，讓 AI 視覺幫你照顧狗狗｜AI 應用案例

黃郁棋2024 年 6 月 8 日

寵物保姆 AI 工具：Furbo 寵物監視器，讓 AI 視覺幫你照顧狗狗｜AI 應用案例 Furbo AI, AI 應用案例, Google, 頭條

關於「AI 攝影機／監視器」的創意應用方面，如果涉及的對象是人類的話，很容易會有個人隱私與資安相關的疑慮存在。然而，如果對象不是人類，而是狗狗呢？上一篇 AI 應用案例討論的是聲音辨識在自動化檢測方面的應用，這一篇我們來討論一下「機器視覺」影像辨識。

Furbo 狗保姆攝影機，是由 2014 年成立的 Tomofun 公司所推出，它與一般的狗狗監控攝影機不同之處在於，Furbo 結合了機器學習影像辨識技術，能夠即時判斷「畫面中什麼物件是狗狗」，並且「隨時旋轉鏡頭，瞄準狗狗」；除此之外，Furbo 還能透過 AI 判斷狗狗的當前狀態：是在吠叫、在哭哭，還是在嘔吐、跑跑、上廁所等等。

Furbo 狗保姆：全球最依賴 AI 辨識技術的狗狗攝影機之一

雖然說 Furbo 是一款狗狗攝影機，但是除了攝影機鏡頭連網監控、旋轉（Furbo 360 度版才有），Furbo 還推出了「狗保姆」軟體服務。

如圖所示，Furbo 可以辨識出，狗狗是不是在嘔吐、是不是在跑跑，是不是上廁所了，是不是在吠叫，又或是狗狗在哭哭（與吠叫聲音不同）、嗷嗚狼嚎。

Furbo 是如何知道「攝影機畫面中哪些是狗狗、哪些是傢具雜物」，並且又是如何知道「狗狗現在在做什麼」？這背後就是電腦視覺在運作，而電腦視覺完全是透過人工智慧（機器學習，Machine Learning）所實現的。

什麼是機器視覺？AI 是如何辨識出畫面中人、事、物的？

所謂的機器視覺，是機器學習的一個應用領域，目標是讓電腦能夠「理解」和「解釋」圖像訊息。就像人類使用眼睛和視覺系統來感知周圍世界一樣，機器視覺目的是在賦予電腦類似於人類的視覺能力。

要做到這一點，電腦科學家必須輸入大量的圖片、影片資料，訓練機器辨識視覺資料。例如，我們提供給機器一千億張不一樣的狗的照片，結合深度學習（Deep Learning）、卷積神經網路（Convolutional Neural Network，CNN）以及循環神經網路（Recurrent Neural Network，RNN），讓電腦透過無數張照片、影片之間，內容的「共同點」來逐漸形成一套專屬於 AI 的辨識邏輯。

漸漸的，電腦就能夠從無數張照片之間的「共同點的組合」，來做出精準的辨識，電腦能夠理解這是狗、這是貓，就算狗的造型萬萬種，但是只要 AI 在訓練階段，接收到足夠完整的訓練素材（大數據），未來在推理時，高機率可以精準辨識出每一隻狗。

至於 CNN 和 RNN 的主要區別，在於它們處理數據的方式不同，CNN 擅長處理「單張影像」或「空間數據」，而 RNN 則更適合處理「影像序列」或「時序數據」。

CNN（卷積神經網路）：利用標記系統分析影像，並為每個像素提供標籤值。它們通過卷積運算識別影像中的輪廓、形狀、顏色和紋理等特徵。CNN 通常用於單一影像分析，例如影像分類，以及物體偵測。

RNN（循環神經網路）：RNN 擅長處理一系列影像，並找出它們之間的關聯性。它們可以理解影像序列中的時間關係，因此適合用於影片分析等任務。

雖然我無法確定，但是 Furbo 應該是使用到 RNN 的技術，透過輸入無數狗狗的影片進行訓練，來讓電腦能夠辨識「什麼是狗」，隨時旋轉鏡頭追蹤牠。

更新（6/9）：側面瞭解了一下，Furbo 有單張圖像辨識，也有連續影片辨識，影片部分會解碼成多張圖片後來進行辨識，但目前主要還是使用 CNN 技術。

另外，也透過無數狗狗的嘔吐影片、奔跑影片，甚至輸入狗狗哭哭的聲音、吠叫的聲音、狼嚎的聲音，來訓練電腦這些狗狗的「狀態」。

更新（6/9）：Furbo 其實有公開分享他們的聲音辨識原理，在將聲音讀取到程式後，Furbo 會先對聲音數據進行「前處理」，包含標準化、降噪、重新採樣、音量調整等。

之後再透過短時距傅立葉變換（Short-time Fourier Transforms, STFT），將聲音數據轉換成梅爾頻譜圖（Mel Spectrogram），對於 AI 模型而言，這些頻譜圖就和影像是類似的東西了，可以將這些數據輸入到 AI 模型裏頭進行分析。

參考資料：
Tomofun AI 落地實例分享 — Furbo AI 聲音警報 (上)
Tomofun AI 落地實例分享 — Furbo AI 聲音警報 (下)

訓練完畢進行推理時，就能精準的辨識出 Furbo 狗狗攝影機拍到的狗狗畫面，裏面的狗狗現在狀態如何、該不該發通知提醒飼主。

也因為 AI 會需要輸入非常多的大數據來進行訓練，這也導致「貓咪攝影機」直到最近才發佈：因為對 Furbo 而言，辨識貓咪完全是一個全新的任務，原本拿來訓練辨識狗狗的素材，在貓咪階段完全派不上用場啊！

機器視覺在商用時的其他應用價值

Furbo 只是我剛好手邊有的案例（本文不是業配，Furbo 攝影機我是自費購買的），但電腦視覺能夠帶來的商用價值很廣，而且不是「未來式」，很多企業甚至政府，已經在大量的運用電腦視覺了。

機器視覺在各行各業的使用場景舉例：

製造業

產品檢測：機器視覺可用於檢測產品缺陷，例如裂縫、凹痕和變色。這有助於提高產品品質並減少浪費。如果搭配先前提過的 AI 聲音辨識，甚至可以做到預測性維護。
機器人引導：機器視覺可用於引導機器人執行任務，例如拾取和放置物體或焊接（焊接是 AI 視覺在工業上非常被使用的情境）。
工藝監控：機器視覺可用於監控生產過程，以確保產品按規格生產。

零售業

顧客人流分析：機器視覺可用於分析購物者行為，例如他們在商店中停留的時間、他們瀏覽的產品，以及他們購買的商品。這些資訊可用於調整商店佈局、個性化產品推薦和提高銷售額。
庫存管理：機器視覺可用於自動追蹤庫存水平，並在貨架空時發出警報，甚至可以做到模糊拍到的人臉（歐盟在這塊的隱私規定很嚴格）。像是今年的 COMPUTEX Realtek 展位，就有放上這個 Use Case，照片如下圖，有些被人流擋住，加減看。
自助結帳：機器視覺可用於自助結帳機，允許顧客無需店員協助即可掃描和支付商品。

交通運輸

自動駕車：機器視覺是自動駕車感知周圍環境（包括其他車輛、行人和交通標誌）的關鍵技術，其中市面上又以特斯拉以及華為的技術最多人討論。附帶一提，特斯拉在 2023 年又將 4D 毫米波雷達加入感測器的行列，過去馬斯克曾認為只需要純電腦視覺就足夠。
交通管理：機器視覺可用於監控交通流量，並識別交通堵塞。這些資訊可用於調整交通信號，改善交通擁堵問題。
事故預防：機器視覺可用於檢測潛在的危險情況，並即時警告駕駛，以防止事故發生。

安全和監控

面部識別：機器視覺可用於識別人的身份。這可用於門禁、安全檢查、執法和個人化服務。
人群監控：機器視覺可用於監控人群並檢測異常活動，這可用於預防犯罪和恐怖主義。面部識別與人群監控，在中國大陸已經非常大規模的使用。姑且不提人權、隱私問題（辯論不完），確實犯罪數量下降明顯。
監控系統：機器視覺可用於一般企業監控或家庭保全監控，這可以防止盜竊和故意破壞。

醫療保健

輔助手術：機器視覺可用於引導外科醫生進行手術，例如微創手術、達文西手臂機器人手術。
分析醫療影像：機器視覺可用於分析醫療影像，例如 X 光片、CT 掃描和 MRI。

機器視覺是一個快速發展的領域，隨著新技術的不斷發展，它在各個領域的應用將變得更加廣泛。以上是關於電腦視覺的分享，再次強調本文不是業配，Furbo 是我自己買的啊！

Written by

黃郁棋

《科技人》站長，在科技業打滾十年的老屁股，每天都覺得自己要被新技術取代了，完了完了。

寵物保姆 AI 工具：Furbo 寵物監視器，讓 AI 視覺幫你照顧狗狗｜AI 應用案例

Furbo 狗保姆：全球最依賴 AI 辨識技術的狗狗攝影機之一

什麼是機器視覺？AI 是如何辨識出畫面中人、事、物的？

機器視覺在商用時的其他應用價值

製造業

零售業

交通運輸

安全和監控

醫療保健

公開留言

發佈留言 取消回覆

打賞科技人｜祝您有個美好的一天：）

最新發佈

AI 應用案例

發佈留言取消回覆