由於人工智慧模型訓練對在線內容有著無止境的需求,網路爬蟲機器人已經成為維琪媒體社區無法承受的負擔。
维基媒体基金会 (負責管理維琪百科及類似社區專案) 的代表表示,自 2024 年 1 月以來,用於處理多媒體檔請求的頻寬使用量增加了 50%。
維琪媒體基金會的 Birgit Mueller、Chris Danis 和 Giuseppe Lavagetto 在一份公開帖子中解釋道:"這種增長並非來自人類讀者,而主要來自自動化程式,這些程式在抓取維琪共用資源中的開放許可圖片,用於訓練 AI 模型。"
"我們的基礎設施本是為了應對重大事件期間人類使用者造成的突發流量高峰而建立的,但爬蟲機器人產生的流量規模前所未有,帶來了日益增長的風險和成本。"
據維琪媒體人士透露,維琪媒體基金會數據中心處理的最耗資源內容中,至少 65% 的流量是由機器人產生的,儘管這些軟體代理僅占頁面訪問量的約 35%。
這是因為維琪媒體基金會採用了緩存策略,將熱門內容分發到全球各地的區域數據中心以提升性能。機器人訪問頁面時不考慮內容的熱門程度,它們對冷門內容的請求意味著這些內容必須從核心數據中心獲取,這會消耗更多計算資源。
正如維琪媒體人士通過引用我們最近的相關報告所指出的,在過去一年左右的時間里,行為不當的機器人一直是開源專案計算基礎設施運營者的普遍抱怨。
上個月,Git 託管服務 Sourcehut 公開批評了那些為 AI 公司瘋狂抓取內容的網路爬蟲。Diaspora 開發者 Dennis Schubert、維修網站 iFixit 以及 ReadTheDocs 等也都對激進的 AI 爬蟲表示反對。
大多數網站都認識到為機器人查詢提供頻寬是經營成本的一部分,因為這些腳本化訪問通過為搜尋引擎建立索引,有助於在線內容更容易被發現。
但自從 ChatGPT 上線和生成式 AI 興起以來,機器人變得更加肆無忌憚,大量抓取整個網站的內容用於訓練 AI 模型。這些模型最終可能成為商業競爭對手,通過收費訂閱或免費方式提供它們收集的聚合知識。這兩種情況都可能減少對源網站的需求,或減少產生在線廣告收入的搜索查詢。
維琪媒體基金會在其 2025/2026 年度規劃檔的"基礎設施負責任使用"部分中提出了一個目標:"在請求率方面將爬蟲產生的流量減少 20%,在頻寬使用方面減少 30%。"
該規劃檔指出,雖然維琪百科及其多媒體庫維琪共用資源對訓練機器學習模型來說是無價之寶,但"我們必須優先考慮為誰提供這些資源,我們希望優先考慮人類使用,並優先支援維琪媒體項目和貢獻者使用我們有限的資源。"
除了網站可靠性工程師已經採取的針對性干預措施來封禁最惡劣的機器人外,如何實現這一目標仍有待探索。
由於對 AI 內容濫用性採集的擔憂已存在一段時間,已經出現了許多用於阻止激進爬蟲的工具。這些包括:數據投毒專案如 Glaze、Nightshade 和 ArtShield;以及基於網路的工具,包括 Kudurru、Nepenthes、AI Labyrinth 和 Anubis。
去年,當網路對 AI 爬蟲的不滿傳到主要的 AI 機器人贊助商 (如 Google、OpenAI 和 Anthropic 等) 耳中時,他們做出了一些努力,通過應用 robots.txt 指令來提供防止 AI 爬蟲訪問網站的方法。
但這些存儲在網站根目錄供到訪網路爬蟲讀取的指令並未得到普遍部署或遵守。而且,如果不使用通配符來覆蓋所有可能性,這種可選的聲明式防禦協定也無法跟上僅需更改名稱就能躲避封禁清單條目的步伐。網站運營者普遍反映,行為不當的機器人會將自己偽裝成 Googlebot 或其他廣泛容忍的爬蟲,以避免被封禁。
例如,Wikipedia.org 的 robots.txt 檔並沒有封禁來自 Google、OpenAI 或 Anthropic 的 AI 爬蟲。它封禁了一些因貪婪抓取整個網站而被認為有問題的機器人,但未能包括主要商業 AI 公司的條目。
The Register 已就維琪媒體基金會為何沒有更全面地禁止 AI 爬蟲一事向其詢問。