週三,Web 基礎設施供應商 Cloudflare 宣佈推出一項名為"AI Labyrinth"的新功能,旨在通過向爬蟲提供 AI 生成的虛假內容來對抗未經授權的 AI 數據抓取。該工具試圖阻止那些未經許可爬取網站以收集訓練數據的 AI 公司,這些數據用於訓練支援 ChatGPT 等 AI 助手的大語言模型。
Cloudflare 成立於 2009 年,最為人所知的是為網站提供基礎設施和安全服務的公司,特別是在防禦分散式拒絕服務 (DDoS) 攻擊和其他惡意流量方面。
與簡單地封鎖爬蟲不同,Cloudflare 的新系統將它們引入一個看似真實但實際上毫不相關的頁面"迷宮"中,浪費爬蟲的計算資源。這種方法與大多數網站保護服務使用的標準封鎖防禦策略有明顯不同。Cloudflare 表示,有時候封鎖爬蟲會適得其反,因為這會提醒爬蟲操作者他們已被發現。
Cloudflare 寫道:"當我們檢測到未經授權的爬取行為時,我們不會封鎖請求,而是會連結到一系列 AI 生成的頁面,這些頁面看起來足夠真實,能夠誘使爬蟲遍歷它們。但雖然這些內容看起來很真實,卻並非我們正在保護的網站的實際內容,因此爬蟲會浪費時間和資源。"
該公司表示,提供給爬蟲的內容故意與被爬取的網站無關,但都是經過精心篩選或使用真實科學事實生成的內容——例如關於生物學、物理學或數學的中性資訊——以避免傳播錯誤資訊(不過,這種方法是否能有效防止錯誤信息傳播仍有待證實)。Cloudflare 使用其商業平臺 Workers AI 服務來生成這些內容。
Cloudflare 將這些陷阱頁面和鏈接設計成對普通訪問者不可見且無法訪問,這樣流覽網頁的人就不會意外遇到它們。
更智慧的蜜罐
AI Labyrinth 作為 Cloudflare 所說的"下一代蜜罐"發揮作用。傳統蜜罐是人類訪問者看不到但解析 HTML 代碼的爬蟲可能會跟隨的隱形連結。但 Cloudflare 表示,現代爬蟲已經變得善於發現這些簡單的陷阱,因此需要更複雜的欺騙手段。這些虛假連結包含適當的元指令,可以防止搜索引擎索引,同時對數據抓取爬蟲保持吸引力。
"沒有真實的人會在 AI 生成的無意義內容迷宮中深入點擊四個連結,"Cloudflare 解釋道。"任何這樣做的訪問者很可能是爬蟲,因此這為我們提供了一個全新的工具來識別和標記惡意爬蟲。"
這種識別會形成機器學習反饋迴圈——從 AI Labyrinth 收集的數據用於持續增強 Cloudflare 網路中的爬蟲檢測能力,隨著時間推移不斷改進客戶保護。任何 Cloudflare 計劃的客戶——即使是免費使用者——都可以通過儀錶板設置中的一個開關輕鬆啟用此功能。
日益嚴重的問題
Cloudflare 的 AI Labyrinth 加入了旨在對抗激進 AI 網路爬蟲的工具陣營。今年 1 月,我們報導了"Nepenthes",這款軟體同樣將 AI 爬蟲引入虛假內容的迷宮中。兩種方法都共用浪費爬蟲資源而不是簡單封鎖的核心理念。然而,雖然 Nepenthes 的匿名创建者将其描述为旨在将爬虫困住数月的"激進惡意軟體",但 Cloudflare 將其工具定位為可以在其商務服務中輕鬆啟用的合法安全功能。
根據 Cloudflare 的數據以及我們從各種來源聽到的軼事報告,AI 爬蟲在網路上的規模似乎相當可觀。該公司表示,AI 爬蟲每天向其網路發送超過 500 億個請求,占其處理的所有網路流量的近 1%。許多爬蟲在未經網站擁有者許可的情況下收集網站數據來訓練大語言模型,這種做法已引發內容創作者和出版商提起多起訴訟。
這項技術代表了 AI 的一個有趣的防禦應用,保護網站擁有者和創作者而不是威脅他們的智慧財產權。然而,目前尚不清楚 AI 爬蟲能多快適應並避開這些陷阱,這可能迫使 Cloudflare 增加其欺騙策略的複雜性。此外,浪費 AI 公司的資源可能不會讓那些批評運行 AI 模型所需能源和環境成本的人感到滿意。
Cloudflare 將此描述為"第一次反覆運算",使用 AI 防禦爬蟲。未來計劃包括使虛假內容更難被檢測,並使虛假頁面更無縫地集成到網站結構中。網站與數據抓取者之間的貓鼠遊戲仍在繼續,而 AI 現在在這場戰鬥的雙方都得到了應用。