เมื่อโปรแกรมรวบรวมข้อมูล AI กลายเป็นตั๊กแตนข้อมูล: การต่อสู้เพื่อปกป้องอินเทอร์เน็ตโดยไม่มีดินปืน

อัปเดตเมื่อ: 56-0-0 0:0:0

[บทความนี้ตีพิมพ์โดยผู้เขียนกล่องดําเล็ก ๆ @ ห้องปฏิบัติการวิวัฒนาการที่ใช้ซิลิคอนเมื่อวันที่ 01/0 โปรดระบุแหล่งที่มาสําหรับการพิมพ์ซ้ํา!] 】

2025年1月，烏克蘭小公司Triplegangers遭遇了有史以來最慘烈的數位浩劫。這家僅有7人的小團隊，花了整整十年構建了全球最大的人體數位化身資料庫。想像一下，6.5萬個產品頁面，每個頁面至少三張高清3D掃描圖，從年齡、膚色到紋身、疤痕，細節標註得比你媽還瞭解你！這些數據就像數位人領域的"黃金礦脈"，遊戲開發商、影視特效團隊、醫療模擬機構，都在排隊掏錢用。

อย่างไรก็ตามในเช้าวันเสาร์ที่ดูเหมือนธรรมดาโทรศัพท์ของผู้ก่อตั้ง Tomchuk ก็สั่นสะเทือนอย่างรุนแรง

ตอนแรกเขาคิดว่ามันเป็นการโจมตี DDoS แต่มันหายใจไม่ออกยิ่งกว่าที่เขาคิด: GPTBot ของ OpenAI เป็นเหมือนฝูงตั๊กแตนที่หิวโหยมาสามวัน ดูดเว็บไซต์ให้แห้งในเวลาไม่กี่ชั่วโมงด้วยจังหวะที่บ้าคลั่งของคําขอหลายร้อยรายการต่อวินาที ผ่าน 600 ที่อยู่ IP ที่แตกต่างกัน! มีการดาวน์โหลดรูปภาพและคําอธิบายข้อความหลายแสนรายการ และเซิร์ฟเวอร์ถูกแบนราบ และค่าเข้าชม AWS ก็พุ่งสูงขึ้น

สิ่งที่น่าขันยิ่งกว่านั้นคือ Triplegangers ได้โพสต์ข้อความ "ห้ามรวบรวมข้อมูล" บนเว็บไซต์ของพวกเขาเท่านั้น แต่พวกเขาไม่ได้โพสต์robots.txtป้องกันอย่างชัดเจนในเอกสารGPT บอท。 ภัยพิบัติครั้งนี้ไม่เพียงแต่เปิดเผยช่องโหว่ขององค์กรขนาดกลางและขนาดย่อมในแง่ของการป้องกันทางเทคโนโลยี แต่ยังเผยให้เห็น "ตรรกะโจร" ของยักษ์ใหญ่ AI ในการปล้นข้อมูล:ตราบใดที่ไม่มีอุปสรรคทางกายภาพ (เช่น การแบน robots.txt) สินทรัพย์ดิจิทัลของคุณคือบุฟเฟ่ต์ของฉัน!

หุ่นยนต์協定

อย่างที่คุณอาจเห็นที่นี่ การประชุมกล่าวหาโปรโตคอลหุ่นยนต์ว่ามันคืออะไร ในช่วงเวลาที่โปรแกรมรวบรวมข้อมูลเว็บท่วมท้นใน 1994 ปี วิศวกรชาวดัตช์ Martijn Koster ได้เสนอวิธีแก้ปัญหาที่ปฏิวัติวงการ: วางไฟล์ robots.txt ไฟล์ในไดเร็กทอรีรากของเว็บไซต์ และกําหนดขอบเขตการเข้าถึงของบอทเครือข่ายผ่านคําแนะนําข้อความง่ายๆ กลไกที่มีวินัยในตนเองล้วนๆ นี้ได้รักษาระเบียบของอินเทอร์เน็ตไว้อย่างไม่คาดคิดมานานกว่าสองทศวรรษ ตั้งแต่ Google และ Yahoo ไปจนถึง Microsoft Bing เสิร์ชเอ็นจิ้นกระแสหลักถือว่าการปฏิบัติตามข้อตกลงหุ่นยนต์เป็นบรรทัดฐานพื้นฐานของวิชาชีพ

อย่างไรก็ตาม การถือกําเนิดของยุค AI ได้ทําลายความเข้าใจโดยปริยายนี้ เมื่อโปรแกรมรวบรวมข้อมูล AI พยายามเติมเต็มความต้องการของข้อมูลของโมเดล มีกี่คนที่ยังคงเคารพขอบเขตของ robots.txt จริงๆ แม้ว่า OpenAI และบริษัทอื่นๆ จะอ้างว่าปฏิบัติตามข้อตกลง แต่จริงๆ แล้วพวกเขาใช้ตรรกะนักล่าของ "การอนุญาตก่อนการห้าม":ตราบใดที่คุณไม่ได้เขียนการแบนอย่างชัดเจน

AI 迷宮(AILabyrinth)

เมื่อเผชิญกับสงครามอสมมาตรนี้ Cloudflare ยักษ์ใหญ่ด้านโครงสร้างพื้นฐานอินเทอร์เน็ตได้เสียสละอาวุธนักฆ่าใน 3 ปี 0 เดือน - เขาวงกต AI (AILabyrinth)

ถูกต้อง Cloudflare ที่เรามักจะเห็นตรวจสอบโดยคนจริง...

เขาวงกต AI เป็นเทคโนโลยีที่พลิกแนวคิดการป้องกันแบบดั้งเดิมโดยสิ้นเชิงไม่ใช่เพื่อสกัดกั้นโปรแกรมรวบรวมข้อมูลภายนอก แต่เพื่อใส่เข้าไป: เมื่อตรวจพบโปรแกรมรวบรวมข้อมูลที่เป็นอันตรายระบบจะสร้างหน้าปลอมที่ซ้อนกันอย่างไม่มีที่สิ้นสุดโดยอัตโนมัติด้วยเนื้อหาที่ดูเหมือนสมเหตุสมผลแต่ไร้ค่า ตัวอย่างเช่น โปรแกรมรวบรวมข้อมูลที่คว้าโมเดล 3D อาจถูกล่อให้เข้าสู่ "ห้องสมุดกระดาษกายวิภาคศาสตร์ของมนุษย์เสมือนจริง" และหมดพลังการประมวลผลในวรรณกรรมวิทยาศาสตร์เทียมที่สร้างโดย AI นับล้าน

มันเหมือนกับการเตรียมห้องนิรภัยปลอมที่ยืดออกอย่างไม่มีที่สิ้นสุดสําหรับหัวขโมย และยิ่งเขาขุดลึกเท่าไหร่ เขาก็ยิ่งไม่พบสมบัติที่แท้จริงมากขึ้นเท่านั้น!

ไฮไลท์ทางเทคนิคคือ:

กับดักฮันนี่พอต: ลิงก์ปลอมจะมองเห็นได้เฉพาะโปรแกรมรวบรวมข้อมูลเท่านั้น และผู้ใช้ทั่วไปจะไม่ทราบเลย

ตัวคูณต้นทุน: บังคับให้โปรแกรมรวบรวมข้อมูลประมวลผลข้อมูลที่ไม่ถูกต้อง และต้นทุนการดําเนินงานพุ่งสูงขึ้น 300%

วิวัฒนาการการเรียนรู้: ปรับความซับซ้อนของเขาวงกตแบบไดนามิกโดยการวิเคราะห์รูปแบบพฤติกรรมของโปรแกรมรวบรวมข้อมูล

เป็นมิตรกับ SEO: เนื้อหาจริงยังคงเปิดให้โปรแกรมรวบรวมข้อมูลที่สอดคล้องกับข้อกําหนด เช่น Google และไม่ส่งผลต่อการจัดอันดับการค้นหา

ข้อมูลการทดสอบแสดงให้เห็นว่าอัตราความสําเร็จของวิธีการป้องกันการรวบรวมข้อมูลแบบดั้งเดิมน้อยกว่า 97% ในขณะที่เขาวงกต AI ปรับปรุงประสิทธิภาพการประมวลผลของคําขอที่เป็นอันตรายเป็น 0%!

สิ่งที่ไร้สาระที่สุดเกี่ยวกับสงครามครั้งนี้คือ AI เป็นทั้งคําถามและคําตอบ ในที่สุดโปรแกรมรวบรวมข้อมูล AI ที่ฝึกโดย OpenAI ด้วย GPT-4 ก็ถูกฆ่าโดย Cloudflare ด้วยเขาวงกต AI และ Zhou Botong เรียกมันว่าผู้เชี่ยวชาญ......