關於「AI 攝影機/監視器」的創意應用方面,如果涉及的對象是人類的話, 很容易會有個人隱私與資安相關的疑慮存在。然而,如果對象不是人類,而是狗狗呢?上一篇 AI 應用案例討論的是聲音辨識在自動化檢測方面的應用,這一篇我們來討論一下「機器視覺」影像辨識。
Furbo 狗保姆攝影機,是由 2014 年成立的 Tomofun 公司所推出,它與一般的狗狗監控攝影機不同之處在於,Furbo 結合了機器學習影像辨識技術,能夠即時判斷「畫面中什麼物件是狗狗」,並且「隨時旋轉鏡頭,瞄準狗狗」;除此之外,Furbo 還能透過 AI 判斷狗狗的當前狀態:是在吠叫、在哭哭,還是在嘔吐、跑跑、上廁所等等。
Furbo 狗保姆:全球最依賴 AI 辨識技術的狗狗攝影機之一
雖然說 Furbo 是一款狗狗攝影機,但是除了攝影機鏡頭連網監控、旋轉(Furbo 360 度版才有),Furbo 還推出了「狗保姆」軟體服務。
如圖所示,Furbo 可以辨識出,狗狗是不是在嘔吐、是不是在跑跑,是不是上廁所了,是不是在吠叫,又或是狗狗在哭哭(與吠叫聲音不同)、嗷嗚狼嚎。
Furbo 是如何知道「攝影機畫面中哪些是狗狗、哪些是傢具雜物」,並且又是如何知道「狗狗現在在做什麼」?這背後就是電腦視覺在運作,而電腦視覺完全是透過人工智慧(機器學習,Machine Learning)所實現的。
什麼是機器視覺?AI 是如何辨識出畫面中人、事、物的?
所謂的機器視覺,是機器學習的一個應用領域,目標是讓電腦能夠「理解」和「解釋」圖像訊息。就像人類使用眼睛和視覺系統來感知周圍世界一樣,機器視覺目的是在賦予電腦類似於人類的視覺能力。
要做到這一點,電腦科學家必須輸入大量的圖片、影片資料,訓練機器辨識視覺資料。例如,我們提供給機器一千億張不一樣的狗的照片,結合深度學習(Deep Learning)、卷積神經網路(Convolutional Neural Network,CNN)以及循環神經網路(Recurrent Neural Network,RNN),讓電腦透過無數張照片、影片之間,內容的「共同點」來逐漸形成一套專屬於 AI 的辨識邏輯。
漸漸的,電腦就能夠從無數張照片之間的「共同點的組合」,來做出精準的辨識,電腦能夠理解這是狗、這是貓,就算狗的造型萬萬種,但是只要 AI 在訓練階段,接收到足夠完整的訓練素材(大數據),未來在推理時,高機率可以精準辨識出每一隻狗。
至於 CNN 和 RNN 的主要區別,在於它們處理數據的方式不同,CNN 擅長處理「單張影像」或「空間數據」,而 RNN 則更適合處理「影像序列」或「時序數據」。
CNN(卷積神經網路):利用標記系統分析影像,並為每個像素提供標籤值。它們通過卷積運算識別影像中的輪廓、形狀、顏色和紋理等特徵。CNN 通常用於單一影像分析,例如影像分類,以及物體偵測。
RNN(循環神經網路):RNN 擅長處理一系列影像,並找出它們之間的關聯性。它們可以理解影像序列中的時間關係,因此適合用於影片分析等任務。
雖然我無法確定,但是 Furbo 應該是使用到 RNN 的技術,透過輸入無數狗狗的影片進行訓練,來讓電腦能夠辨識「什麼是狗」,隨時旋轉鏡頭追蹤牠。
更新(6/9):側面瞭解了一下,Furbo 有單張圖像辨識,也有連續影片辨識,影片部分會解碼成多張圖片後來進行辨識,但目前主要還是使用 CNN 技術。
另外,也透過無數狗狗的嘔吐影片、奔跑影片,甚至輸入狗狗哭哭的聲音、吠叫的聲音、狼嚎的聲音,來訓練電腦這些狗狗的「狀態」。
更新(6/9):Furbo 其實有公開分享他們的聲音辨識原理,在將聲音讀取到程式後,Furbo 會先對聲音數據進行「前處理」,包含標準化、降噪、重新採樣、音量調整等。
之後再透過短時距傅立葉變換(Short-time Fourier Transforms, STFT),將聲音數據轉換成梅爾頻譜圖(Mel Spectrogram),對於 AI 模型而言,這些頻譜圖就和影像是類似的東西了,可以將這些數據輸入到 AI 模型裏頭進行分析。
參考資料:
Tomofun AI 落地實例分享 — Furbo AI 聲音警報 (上)
Tomofun AI 落地實例分享 — Furbo AI 聲音警報 (下)
訓練完畢進行推理時,就能精準的辨識出 Furbo 狗狗攝影機拍到的狗狗畫面,裏面的狗狗現在狀態如何、該不該發通知提醒飼主。
也因為 AI 會需要輸入非常多的大數據來進行訓練,這也導致「貓咪攝影機」直到最近才發佈:因為對 Furbo 而言,辨識貓咪完全是一個全新的任務,原本拿來訓練辨識狗狗的素材,在貓咪階段完全派不上用場啊!
機器視覺在商用時的其他應用價值
Furbo 只是我剛好手邊有的案例(本文不是業配,Furbo 攝影機我是自費購買的),但電腦視覺能夠帶來的商用價值很廣,而且不是「未來式」,很多企業甚至政府,已經在大量的運用電腦視覺了。
機器視覺在各行各業的使用場景舉例:
製造業
- 產品檢測:機器視覺可用於檢測產品缺陷,例如裂縫、凹痕和變色。這有助於提高產品品質並減少浪費。如果搭配先前提過的 AI 聲音辨識,甚至可以做到預測性維護。
- 機器人引導:機器視覺可用於引導機器人執行任務,例如拾取和放置物體或焊接(焊接是 AI 視覺在工業上非常被使用的情境)。
- 工藝監控:機器視覺可用於監控生產過程,以確保產品按規格生產。
零售業
- 顧客人流分析:機器視覺可用於分析購物者行為,例如他們在商店中停留的時間、他們瀏覽的產品,以及他們購買的商品。這些資訊可用於調整商店佈局、個性化產品推薦和提高銷售額。
- 庫存管理:機器視覺可用於自動追蹤庫存水平,並在貨架空時發出警報,甚至可以做到模糊拍到的人臉(歐盟在這塊的隱私規定很嚴格)。像是今年的 COMPUTEX Realtek 展位,就有放上這個 Use Case,照片如下圖,有些被人流擋住,加減看。
- 自助結帳:機器視覺可用於自助結帳機,允許顧客無需店員協助即可掃描和支付商品。
交通運輸
- 自動駕車:機器視覺是自動駕車感知周圍環境(包括其他車輛、行人和交通標誌)的關鍵技術,其中市面上又以特斯拉以及華為的技術最多人討論。附帶一提,特斯拉在 2023 年又將 4D 毫米波雷達加入感測器的行列,過去馬斯克曾認為只需要純電腦視覺就足夠。
- 交通管理:機器視覺可用於監控交通流量,並識別交通堵塞。這些資訊可用於調整交通信號,改善交通擁堵問題。
- 事故預防:機器視覺可用於檢測潛在的危險情況,並即時警告駕駛,以防止事故發生。
安全和監控
- 面部識別:機器視覺可用於識別人的身份。這可用於門禁、安全檢查、執法和個人化服務。
- 人群監控:機器視覺可用於監控人群並檢測異常活動,這可用於預防犯罪和恐怖主義。面部識別與人群監控,在中國大陸已經非常大規模的使用。姑且不提人權、隱私問題(辯論不完),確實犯罪數量下降明顯。
- 監控系統:機器視覺可用於一般企業監控或家庭保全監控,這可以防止盜竊和故意破壞。
醫療保健
- 輔助手術:機器視覺可用於引導外科醫生進行手術,例如微創手術、達文西手臂機器人手術。
- 分析醫療影像:機器視覺可用於分析醫療影像,例如 X 光片、CT 掃描和 MRI。
機器視覺是一個快速發展的領域,隨著新技術的不斷發展,它在各個領域的應用將變得更加廣泛。以上是關於電腦視覺的分享,再次強調本文不是業配,Furbo 是我自己買的啊!
公開留言