AI產業

OpenAI 現在允許網站禁止 GPTBot 爬蟲抓取數據

OpenAI 現在允許網站禁止 GPTBot 爬蟲抓取數據 GPTBot 評論, AI, 頭條

OpenAI 作為 AI 技術的領先者,現在也遇到越來越多取得訓練才聊方面的爭議。為了回應資料隱私和版權等議題,OpenAI 近期啟動了新功能,允許網站操作者阻止其網路爬蟲「GPTBot」從特定網站抓取資料用於訓練 GPT 模型。

GPTBot 的運作與控制

所謂的網路爬蟲,是一個能在網路上自動搜尋和獲取資訊的程式,像是 Google 搜尋引擎以及Bing 搜尋引擎就是爬蟲大宗。OpenAI 的 GPTBot 也會定期訪問各種網站,並儲存網頁內容以供其模型訓練。

OpenAI 現在允許網站禁止 GPTBot 爬蟲抓取數據 GPTBot 評論, AI, 頭條

然而,網站資料被 GPTBot 取用,現階段並沒有辦法反過來讓網站受惠,不像搜尋引擎可能幫網站帶來流量。網站管理者現在可以透過修改 Robots.txt 檔或阻擋特定 IP 地址,來限制 GPTBot 的訪問。

阻擋 GPTBot 的 Robot.txt 寫法

如果你的決定阻擋 GPTBot 存取(白嫖)你的網站資料,可以加入下面這段文字進去你網站的 Robot.txt:

User-agent: GPTBot
Disallow: /

如果你只想允許部分網站內容(或阻擋某些網站內容)讓 GPTBot 讀取,可以自行按照下面的格式修改:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

OpenAI 對旗下 GPTBot 的解釋

OpenAI 在官方部落格中指出:「使用 GPTBot 抓取的網頁資料,或許會被運用來優化未來模型。然而,需要付費訪問、已知收集個人身份資訊或違反我們政策的資料來源將會被過濾。」對於那些資料源,讓 GPTBot 訪問可以增進 AI 模型的精確度,並提升其泛用性及安全性。

OpenAI 現在允許網站禁止 GPTBot 爬蟲抓取數據 GPTBot 評論, AI, 頭條

大型語言模型,例如 OpenAI 的 GPT 和 Google 的 Bard,大部分的訓練數據來源都是網路。然而,隨著 AI 訓練數據的取得方式日益受到關注,一些平台如 Reddit 和 Twitter 已經採取措施,限制 AI 公司無償使用其用戶的內容。同時,部分作者和創作者也已提告,指控未經授權使用其作品。

Written by
黃郁棋

《科技人》站長,在科技業打滾十年的老屁股,每天都覺得自己要被新技術取代了,完了完了。

公開留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *