Home AI OpenAI 現在允許網站禁止 GPTBot 爬蟲抓取數據
AI產業

OpenAI 現在允許網站禁止 GPTBot 爬蟲抓取數據

OpenAI 現在允許網站禁止 GPTBot 爬蟲抓取數據 GPTBot 評論, AI, 產業

OpenAI 作為 AI 技術的領先者,現在也遇到越來越多取得訓練才聊方面的爭議。為了回應資料隱私和版權等議題,OpenAI 近期啟動了新功能,允許網站操作者阻止其網路爬蟲「GPTBot」從特定網站抓取資料用於訓練 GPT 模型。

GPTBot 的運作與控制

所謂的網路爬蟲,是一個能在網路上自動搜尋和獲取資訊的程式,像是 Google 搜尋引擎以及Bing 搜尋引擎就是爬蟲大宗。OpenAI 的 GPTBot 也會定期訪問各種網站,並儲存網頁內容以供其模型訓練。

OpenAI 現在允許網站禁止 GPTBot 爬蟲抓取數據 GPTBot 評論, AI, 產業

然而,網站資料被 GPTBot 取用,現階段並沒有辦法反過來讓網站受惠,不像搜尋引擎可能幫網站帶來流量。網站管理者現在可以透過修改 Robots.txt 檔或阻擋特定 IP 地址,來限制 GPTBot 的訪問。

阻擋 GPTBot 的 Robot.txt 寫法

如果你的決定阻擋 GPTBot 存取(白嫖)你的網站資料,可以加入下面這段文字進去你網站的 Robot.txt:

User-agent: GPTBot
Disallow: /

如果你只想允許部分網站內容(或阻擋某些網站內容)讓 GPTBot 讀取,可以自行按照下面的格式修改:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

OpenAI 對旗下 GPTBot 的解釋

OpenAI 在官方部落格中指出:「使用 GPTBot 抓取的網頁資料,或許會被運用來優化未來模型。然而,需要付費訪問、已知收集個人身份資訊或違反我們政策的資料來源將會被過濾。」對於那些資料源,讓 GPTBot 訪問可以增進 AI 模型的精確度,並提升其泛用性及安全性。

OpenAI 現在允許網站禁止 GPTBot 爬蟲抓取數據 GPTBot 評論, AI, 產業

大型語言模型,例如 OpenAI 的 GPT 和 Google 的 Bard,大部分的訓練數據來源都是網路。然而,隨著 AI 訓練數據的取得方式日益受到關注,一些平台如 Reddit 和 Twitter 已經採取措施,限制 AI 公司無償使用其用戶的內容。同時,部分作者和創作者也已提告,指控未經授權使用其作品。

Written by
黃郁棋

在科技業打滾十年的老屁股,每天都覺得自己要被新技術取代了,完了完了。

公開留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *