根據《華盛頓郵報》報導,Reddit 正在考慮一個做法應對 AI 衝擊:如果無法與生成式 AI 公司達成「數據付費協議」,Reddit 則可能會選擇封鎖 Google 和 Bing 的搜尋引擎爬蟲。Reddit 發言人 Tim Rathschmidt 對此說法並未否認,他僅表示目前對這個問題「沒有任何可以分享的」。
關鍵提問
- Reddit 是否真的計劃封鎖 Google 和 Bing 的搜尋爬蟲?
- Reddit 的 API 定價改變對第三方應用開發者有何影響?
- 逾 535 家新聞機構選擇封鎖其內容,以防止被 AI 公司如 OpenAI 抓取,這背後意味著什麼?

Reddit 新策略帶來的變化
先前《華盛頓郵報》報導,Reddit 可能會改為「用戶登入後才可閱讀內容」,但後來 Reddit 否認了這個說法。報導經過修正後,Reddit 的內容依舊無需登入就能觀看,但若 Reddit 選擇封鎖搜尋爬蟲,Reddit 的文章將不會出現在 Google 和 Bing 的搜尋結果中。
Reddit 的許多子版面曾經因為 Reddit API 定價變動而受到影響,要知道,很多人習慣透過第三方軟體使用 Reddit,而這些軟體都依賴 Reddit API 在運行。隨著越來越多大型企業使用 Reddit 的資料訓練 AI,Reddit 表示這確實是一個負擔。
Reddit CEO Steve Huffman 曾明確的說,API 定價的變更是為了讓 AI 公司支付訓練數據的費用。然而,這個策略同時也對第三方應用開發者造成了壓力。

網路爬蟲:更嚴峻的數據爭議
其實除了 Reddit,X 的老闆馬斯克前陣子也因為數據撈取的問題而改變了 API 定價,同樣讓很多第三方軟體活不下去。但拋開 API 不說,數據撈取疑慮還有下一個難關:搜尋引擎。
搜尋引擎使用網路爬蟲蒐集資料,在製作搜尋引擎索引的同時,也讓 Google、Bing 這些 AI 大型企業有源源不絕的大數據可以使用,並且無需為此付費。Reddit 若無法順利的跟這些巨型 AI 公司收費,就可能考慮封鎖搜尋引擎爬蟲。
目前,已經有超過 535 家新聞機構選擇阻止他們的內容被像 OpenAI 這樣的公司用於訓練產品,如 ChatGPT。
透過這些動向我們可以看出,Reddit 可能封鎖搜尋引擎爬蟲不僅是一個單一事件,而是一個更大範疇的數據抓取問題的象徵。

在未來,會不會有越來越多內容平台,會為了避免內容被拿去白嫖訓練 AI,而選擇封鎖搜尋引擎爬蟲?當越來越多內容平台選擇封鎖,搜尋引擎的實用性是否會受到衝擊?
這一切改變,在未來對用戶、開發者以及大數據產業都會帶來深遠的影響。
公開留言