الذكاء الاصطناعي التحكم في التفضيلات:IETF 正在完善 robots.txt 以應對無視版權的 الذكاء الاصطناعي crawl蟲
تحديث يوم: 24-0-0 0:0:0

أنشأت فرقة عمل هندسة الإنترنت (IETF) مجموعة عمل لتطوير معيار يسمح لمنشئي المحتوى بإبلاغ مطوري الذكاء الاصطناعي إذا سمح لهم باستخدام عملهم.

طلب من المنظمة ، المسماة مجموعة عمل تفضيل الذكاء الاصطناعي (AIPREF) ، تطوير المحتوى في مجالين:

الأول هو تطوير مفردات مشتركة تعبر عن تفضيلات المؤلفين والناشرين لاستخدام محتواهم للتدريب على الذكاء الاصطناعي والمهام ذات الصلة.

والثاني هو تطوير طرق لإلحاق هذه المفردات بمحتوى الإنترنت، إما عن طريق دمجها في المحتوى، أو عن طريق اعتماد تنسيق يشبه robots.txt، وإنشاء آلية قياسية لتنسيق تعبيرات التفضيل المتعددة.

يوصي ميثاق AIPREF بتحقيق هذه الأهداف من خلال "تضمين التفضيلات في بيانات المحتوى ، أو إرسال إشارات التفضيل من خلال البروتوكولات التي تقدم المحتوى".

يعتقد مارك نوتنغهام ، الرئيس المشارك ل AIPREF ، أن هذه الإجراءات ضرورية لأن النظام الحالي لا يعمل بشكل جيد.

يجادل بأن "الإشارات غير القياسية" في وثيقة robots.txt ، وهي معيار IETF الذي يحدد بناء الجملة المستخدم لتحديد ما إذا كانت برامج الزحف تسمح بالوصول إلى محتوى الويب ، لم تعد صالحة.

"نتيجة لذلك ، يفقد المؤلفون والناشرون الثقة في ما إذا كان سيتم الامتثال لتفضيلاتهم ، ويتعين عليهم اتخاذ تدابير مثل إخفاء عناوين IP [بائعي الذكاء الاصطناعي]."

يستخدم منشئو المحتوى حظر IP لأن مطوري النماذج الرئيسيين لا يطلبون الإذن أو يسعون للحصول على إذن عند كشط محتوى الإنترنت للتدريب على الذكاء الاصطناعي.

تضغط OpenAI حاليا من أجل إصلاح حقوق الطبع والنشر على أمل أن تكون قادرة على كشط المزيد من المحتوى دون دفع.

يقاوم أصحاب حقوق الطبع والنشر من خلال مقاضاة أولئك الذين يستخدمون مواد محمية بحقوق الطبع والنشر لبناء نماذج ، مع توقيع اتفاقيات الترخيص التي تسمح لشركات الذكاء الاصطناعي بالدفع مقابل الوصول إلى المحتوى.

تضع برامج زحف الذكاء الاصطناعي أيضا عبئا ماليا على الناشرين. اشتكت مؤسسة ويكيميديا مؤخرا من أن النطاق الترددي المستخدم لمعالجة طلبات استرجاع الصور قد زاد بنسبة 50٪ في العام الماضي ، ويرجع ذلك أساسا إلى تنزيل برامج زحف الذكاء الاصطناعي للمواد.

لا يهتم IETF بهذه القضايا القانونية والتشغيلية: إنه يريد فقط بناء تقنية تسمح للأشخاص بالتعبير عن تفضيلاتهم ، ويريد من مشغلي الزاحف قبول المحتوى الذي يرغب المبدعون في إتاحته لموقع الذكاء الاصطناعي والحصول عليهم فقط.

للمضي قدما في هذا العمل ، اجتمع AIPREF في اجتماع IETF 122 في منتصف مارس وقام بالفعل بتطوير مشروعين. يقترح أحدهم "سلاسل تفضيلات الاستخدام القصيرة للمعالجة الآلية" ، مما يشير إلى أنه يمكن استخدام هذه السلاسل في ملفات robots.txt أو حقول رأس HTTP.

يوصي اقتراح آخر من Common Crawl Foundation ، بعنوان "مفردات تعبير تفضيلات المحتوى للتدريب الذكاء الاصطناعي" ، بتخزين بناء جملة التفضيلات في ملفات robots.txt أو حقول رأس HTTP ، بالإضافة إلى استخدام المفردات المقترحة في العلامات الوصفية.

يجتمع AIPROF هذا الأسبوع ، على الرغم من أنه يبدو أن اجتماعا مقررا قد تم إلغاؤه.

وحددت مجموعة العمل لنفسها موعدا نهائيا مدته 8 سنة و0 شهرا لتقديم المقترحات. بدا أن المشاركين يعرفون أن هذا كان موعدا نهائيا ضيقا ، لذلك كانت المنظمة بحاجة إلى التحرك بشكل أسرع.