AI爬蟲“狂啃”維琪媒體資源,運營開支壓力山大?
更新于:2025-04-03 23:53:46

近期,维基媒体基金会,這一運營著全球知名在線百科全書維琪百科的非營利組織,透露了一項令人關切的運營挑戰。該基金會在一篇博文中指出,專為AI訓練數據集抓取資源的網路爬蟲活動正對其造成前所未有的運營開支壓力。

維琪百科的關聯專案——維琪共享資源,作為一個龐大的多媒體資料庫,長期以來吸引著各類使用者。然而,自2024年初以來,從該平台下載多媒體內容的頻寬使用量激增了50%,這一增長主要由自動化程序驅動,而非傳統的人類用戶行為。

維琪媒體基金會以往能夠有效應對突發事件引發的人類使用者流量高峰,但AI時代網路爬蟲活動的頻繁加劇,正逐漸侵蝕其系統冗餘,迫使基金會將寶貴的時間和資源投入到應對非人類流量上。這不僅影響了用戶體驗,也增加了運營成本。

基金會的數據存儲策略是,低頻內容存放在核心數據中心,而高頻內容則在更靠近用戶的數據中心備份。然而,網路爬蟲的“遍歷式”查詢模式導致大量流量湧向核心數據中心,從而推高了流量成本。據統計,儘管機器人流覽量僅佔總體的35%,但它們卻消耗了核心數據中心65%的流量資源。

更令人擔憂的是,這些自動爬蟲不僅訪問了公開資源,甚至還試圖訪問維琪媒體基金會開發環境的關鍵系統,如代碼審查平台和錯誤跟蹤器,這進一步加劇了安全風險和運營負擔。

維琪媒體基金會強調,儘管其提供的所有內容是免費的,但維護這些內容的基礎設施並非無成本。基金會呼籲建立一個負責任、可持續的基礎設施使用規範,以避免“公地悲劇”的重演,即公共資源因過度使用而遭受破壞。

面對這一挑戰,維琪媒體基金會正積極尋求解決方案,以確保維琪百科及其姊妹項目的持續健康發展。同時,該基金會也呼籲社會各界關注並支援其工作,共同維護這一寶貴的全球知識共享平臺。

為了應對日益增長的自動化訪問需求,維琪媒體基金會也在探索技術創新,如優化數據存儲策略、提升系統冗餘度以及加強安全防護措施等,以期在保障用戶體驗的同時,有效控制運營成本。

Uzi起訴RNG將開庭
Uzi起訴RNG將開庭
2025-04-07 09:58:51