人工智慧
產業
Google
- YouTube
- 地圖
- Chrome
微軟
- Windows
- Office
- Edge
蘋果
- iOS
- macOS
- iPhone
- iPad
- Macbook
- 蘋果穿戴
小工具
其他
- Android
  - OPPO
  - Realme
  - 三星
  - 榮耀
  - 小米
- 華為
  - 鴻蒙
  - 華為穿戴
- 軟體
  - 教學
  - LINE
  - Facebook
  - Instagram
  - Threads
  - X
  - Spotify
  - Netflix
- PlayStation
- 教學
- 評論
- 問與答

AI 產業

OpenAI 現在允許網站禁止 GPTBot 爬蟲抓取數據

黃郁棋2023 年 8 月 8 日

OpenAI 現在允許網站禁止 GPTBot 爬蟲抓取數據 GPTBot AI, AI 應用案例, Google, 頭條

OpenAI 作為 AI 技術的領先者，現在也遇到越來越多取得訓練才聊方面的爭議。為了回應資料隱私和版權等議題，OpenAI 近期啟動了新功能，允許網站操作者阻止其網路爬蟲「GPTBot」從特定網站抓取資料用於訓練 GPT 模型。

GPTBot 的運作與控制

所謂的網路爬蟲，是一個能在網路上自動搜尋和獲取資訊的程式，像是 Google 搜尋引擎以及Bing 搜尋引擎就是爬蟲大宗。OpenAI 的 GPTBot 也會定期訪問各種網站，並儲存網頁內容以供其模型訓練。

然而，網站資料被 GPTBot 取用，現階段並沒有辦法反過來讓網站受惠，不像搜尋引擎可能幫網站帶來流量。網站管理者現在可以透過修改 Robots.txt 檔或阻擋特定 IP 地址，來限制 GPTBot 的訪問。

阻擋 GPTBot 的 Robot.txt 寫法

如果你的決定阻擋 GPTBot 存取（白嫖）你的網站資料，可以加入下面這段文字進去你網站的 Robot.txt：

User-agent: GPTBot
Disallow: /

如果你只想允許部分網站內容（或阻擋某些網站內容）讓 GPTBot 讀取，可以自行按照下面的格式修改：

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

OpenAI 對旗下 GPTBot 的解釋

OpenAI 在官方部落格中指出：「使用 GPTBot 抓取的網頁資料，或許會被運用來優化未來模型。然而，需要付費訪問、已知收集個人身份資訊或違反我們政策的資料來源將會被過濾。」對於那些資料源，讓 GPTBot 訪問可以增進 AI 模型的精確度，並提升其泛用性及安全性。

大型語言模型，例如 OpenAI 的 GPT 和 Google 的 Bard，大部分的訓練數據來源都是網路。然而，隨著 AI 訓練數據的取得方式日益受到關注，一些平台如 Reddit 和 Twitter 已經採取措施，限制 AI 公司無償使用其用戶的內容。同時，部分作者和創作者也已提告，指控未經授權使用其作品。

Written by

黃郁棋

《科技人》站長，在科技業打滾十年的老屁股，每天都覺得自己要被新技術取代了，完了完了。

OpenAI 現在允許網站禁止 GPTBot 爬蟲抓取數據

GPTBot 的運作與控制

阻擋 GPTBot 的 Robot.txt 寫法

OpenAI 對旗下 GPTBot 的解釋

公開留言

發佈留言 取消回覆

打賞科技人｜祝您有個美好的一天：）

最新發佈

AI 應用案例

發佈留言取消回覆