OpenAI 作為 AI 技術的領先者,現在也遇到越來越多取得訓練才聊方面的爭議。為了回應資料隱私和版權等議題,OpenAI 近期啟動了新功能,允許網站操作者阻止其網路爬蟲「GPTBot」從特定網站抓取資料用於訓練 GPT 模型。
GPTBot 的運作與控制
所謂的網路爬蟲,是一個能在網路上自動搜尋和獲取資訊的程式,像是 Google 搜尋引擎以及Bing 搜尋引擎就是爬蟲大宗。OpenAI 的 GPTBot 也會定期訪問各種網站,並儲存網頁內容以供其模型訓練。

然而,網站資料被 GPTBot 取用,現階段並沒有辦法反過來讓網站受惠,不像搜尋引擎可能幫網站帶來流量。網站管理者現在可以透過修改 Robots.txt 檔或阻擋特定 IP 地址,來限制 GPTBot 的訪問。
阻擋 GPTBot 的 Robot.txt 寫法
如果你的決定阻擋 GPTBot 存取(白嫖)你的網站資料,可以加入下面這段文字進去你網站的 Robot.txt:
User-agent: GPTBot
Disallow: /
如果你只想允許部分網站內容(或阻擋某些網站內容)讓 GPTBot 讀取,可以自行按照下面的格式修改:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
OpenAI 對旗下 GPTBot 的解釋
OpenAI 在官方部落格中指出:「使用 GPTBot 抓取的網頁資料,或許會被運用來優化未來模型。然而,需要付費訪問、已知收集個人身份資訊或違反我們政策的資料來源將會被過濾。」對於那些資料源,讓 GPTBot 訪問可以增進 AI 模型的精確度,並提升其泛用性及安全性。

大型語言模型,例如 OpenAI 的 GPT 和 Google 的 Bard,大部分的訓練數據來源都是網路。然而,隨著 AI 訓練數據的取得方式日益受到關注,一些平台如 Reddit 和 Twitter 已經採取措施,限制 AI 公司無償使用其用戶的內容。同時,部分作者和創作者也已提告,指控未經授權使用其作品。
公開留言