Home AI ChatGPT 圖片上傳與錄音功能啟動!多模態互動更直接
AI頭條

ChatGPT 圖片上傳與錄音功能啟動!多模態互動更直接

ChatGPT 圖片上傳與錄音功能啟動!多模態互動更直接 ChatGPT 圖片 評論, AI, 產業

根據 OpenAI 最新的部落格文章介紹,OpenAI 即將為 ChatGPT 推出「語音」和「圖片理解」能力,讓用戶能以更直觀的方式進行互動。這些新功能將在未來兩週內陸續推出給 Plus 和企業版用戶。

ChatGPT 即將推出更多互動選項

除了傳統的文字對話外,用戶現在可以透過「拍照」或「錄音」來與 ChatGPT 進行更多元的互動。無論是在旅行中拍攝名勝,或是在家裡為晚餐找出食材,都能與 ChatGPT 進行實時對話。

在接到更新後,用戶就可以在 iOS 和 Android 平台的 ChatGPT 應用設置中,選擇「啟用語音功能」。新的語音能力由專業語音演員和 OpenAI 的 Whisper 開源語音識別系統共同構建。有意思的是,在說英文的能力上,ChatGPT 可以說又上了一個台階,基本感覺不出是機器人在說話了。

ChatGPT 真人語音範例:說故事

ChatGPT 圖片上傳與錄音功能啟動!多模態互動更直接 ChatGPT 圖片 評論, AI, 產業

Once in a tranquil woodland, there was a fluffy mama cat named Lila. One sunny day, she cuddled with her playful kitten, Milo, under the shade of an old oak tree.

“Milo,” Lila began, her voice soft and gentle, “you’re going to have a new playmate soon.”

Milo’s ears perked up, curious. “A new playmate?”

Lila purred, “Yes, a baby sister.”

Milo’s eyes widened with excitement. “A sister? Will she chase tails like I do?”

Lila chuckled. “Oh, she’ll have her own quirks. You’ll teach her, won’t you?”

Milo nodded eagerly, already dreaming of the adventures they’d share.

ChatGPT 的影像理解能力升級

除了語音互動外,ChatGPT 現在也能夠理解和分析影像。無論是拍照、截圖還是包含文本和影像的文件,都能透過 GPT-3.5 和 GPT-4 的多模態模型進行處理。從下方的影片我們可以發現,用戶可以在連續對話中,穿插文字與圖片給 ChatGPT,讓它直接就圖片內容給予建議。

ChatGPT 圖片上傳與錄音功能啟動!多模態互動更直接 ChatGPT 圖片 評論, AI, 產業

ChatGPT 後續的安全與風險控制

OpenAI 強調,新的語音和影像功能在推出之前已進行過多方面的測試,以確保其安全性和可用性。該公司也與 Be My Eyes 合作,了解盲人和視障人士在使用這些功能時可能遇到的問題。

OpenAI 計畫在接下來的幾週內將這些新功能推出給更多用戶群,包括開發者。此外,OpenAI 也將持續收集用戶反饋,以進一步完善這些新功能。

Written by
黃郁棋

在科技業打滾十年的老屁股,每天都覺得自己要被新技術取代了,完了完了。

公開留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *