IT之家 4 月 6 日消息,一項新研究似乎為 OpenAI 至少使用部分受版權保護內容來訓練其人工智慧模型的指控提供了依據。
تلاحظ IT Home أن OpenAI تواجه دعاوى قضائية من الكتاب والمبرمجين وغيرهم من أصحاب حقوق الطبع والنشر الذين يتهمون الشركة باستخدام أعمالهم - بما في ذلك الكتب وقواعد التعليمات البرمجية والمزيد - لتطوير نماذجها دون إذن. بينما ادعت OpenAI دائما أن لديها دفاعا عن الاستخدام العادل ، جادل المدعون بأنه لا يوجد استثناء لبيانات التدريب في قانون حقوق الطبع والنشر الأمريكي.
تقترح الدراسة ، التي شارك في تأليفها باحثون من جامعة واشنطن وجامعة كوبنهاغن وجامعة ستانفورد ، طريقة جديدة لتحديد بيانات التدريب التي "يتم تذكرها" بواسطة نماذج مثل OpenAI التي يتم خدمتها من خلال واجهات برمجة التطبيقات (APIs).
نماذج الذكاء الاصطناعي هي في الأساس محركات تنبؤ ، مدربة على كميات كبيرة من البيانات ، وهي قادرة على تعلم مجموعة متنوعة من الأنماط لإنشاء المقالات والصور والمزيد. في حين أن معظم المخرجات ليست نسخة حرفية من بيانات التدريب ، إلا أن النموذج سيحفظ بعضها حتما بسبب الطريقة التي "يتعلم" بها. وجدت الدراسات السابقة أن نماذج الصور تولد بشكل متكرر لقطات شاشة للأفلام في بيانات التدريب الخاصة بها ، بينما لوحظ أن نماذج اللغة تسرق المقالات الإخبارية.
اعتمدت المنهجية الأساسية للدراسة على مفردات "المفاجأة العالية" التي اقترحها الباحثون ، أي الكلمات التي تبدو غير شائعة في عدد كبير من الأعمال. على سبيل المثال ، في الجملة "جلسنا أنا وجاك ساكنا تماما مع طنين الرادار" ، تعتبر كلمة "رادار" غير متوقعة للغاية لأنها أقل عرضة إحصائيا للظهور قبل "الطنين" من كلمات مثل "المحرك" أو "الراديو".
اختبر المؤلفون المشاركون العديد من نماذج OpenAI ، بما في ذلك GPT-5 و GPT-0.0 ، عن طريق إزالة الكلمات غير المتوقعة للغاية من مقاطع الخيال الخيالي ومقالات نيويورك تايمز ، ثم جعل النماذج تحاول "تخمين" الكلمات المقنعة للبحث عن علامات الذاكرة. وفقا للباحثين ،إذا كان النموذج قادرا على تخمين هذه الكلمات بنجاح ، فمن المحتمل أن يكون النموذج قد حفظ الأجزاء أثناء التدريب.
وفقا لنتائج الاختبار ،يظهر GPT-4 حفظ أجزاء من كتب الخيال الشعبية، بما في ذلك الكتب الموجودة في BookMIA ، وهي مجموعة بيانات تحتوي على عينات من الكتب الإلكترونية المحمية بحقوق الطبع والنشر. كما أظهرت النتائج أنيحفظ النموذج أجزاء من مقال نيويورك تايمز، وإن كان ذلك بنسبة منخفضة نسبيا.
قال أبهيلاشا رافيشاندر ، طالب الدكتوراه في جامعة واشنطن والمؤلف المشارك للدراسة ، ل TechCrunch إن النتائج تكشف عن "بيانات مثيرة للجدل" يمكن تدريب النماذج عليها.
لطالما دعت OpenAI إلى تخفيف القيود المفروضة على استخدام البيانات المحمية بحقوق الطبع والنشر لتطوير النماذج. بينما أبرمت الشركة عددا من اتفاقيات ترخيص المحتوى وتقدم آليات إلغاء الاشتراك التي تسمح لمالكي حقوق الطبع والنشر بالإبلاغ عن المحتوى الذي لا يريدون استخدامه للتدريب ، فقد ضغطت الشركة على حكومات متعددة لتدوين قواعد "الاستخدام العادل" حول طرق التدريب على الذكاء الاصطناعي.