اوپن اي آئي هيمرڊ: تحقيق جو چوڻ آهي ته ان جي اي آئي ماڊل ڪاپي رائيٽ ٿيل مواد کي "ياد ڪري ٿو"

اوپن اي آئي کي هٿيار ڏنو ويو آهي: تحقيق جو چوڻ آهي ته ان جي اي آئي ماڊل ڪاپي رائيٽ ٿيل مواد کي "ياد" ڪري ٿو

OpenAI ڪاپي رائيٽ جي پي ٽي 4 آئي ٽي هائوس gpt حقيقي هٿيار اسٽينفورڊ يونيورسٽي طريقو ٻولي نموني متن جامع تصوير ماڊل سمجھو

تي اپڊيٽ ڪيو ويو: 03-0-0 0:0:0

IT之家 4 月 6 日消息，一項新研究似乎為 OpenAI 至少使用部分受版權保護內容來訓練其人工智慧模型的指控提供了依據。

آئي ٽي هوم نوٽ ڪري ٿو ته اوپن اي آئي ليکڪن، پروگرامرز ، ۽ ٻين ڪاپي رائيٽ هولڊرن جي مقدمن کي منهن ڏئي رهيو آهي ته ڪمپني کي انهن جي ڪم کي استعمال ڪرڻ جو الزام آهي - ڪتابن، ڪوڊبيس ۽ وڌيڪ سميت - بغير اجازت جي پنهنجي ماڊل کي ترقي ڪرڻ لاء. جڏهن ته اوپن اي آئي ڊگهي عرصي کان زور ڏنو آهي ته ان کي منصفانه استعمال جو دفاع آهي، مدعين جو استدلال آهي ته آمريڪي ڪاپي رائيٽ قانون ۾ تربيتي ڊيٽا لاء ڪو به استثنا نه آهي.

اهو مطالعو، واشنگٽن يونيورسٽي، ڪوپن هيگن يونيورسٽي ۽ اسٽينفورڊ يونيورسٽي جي محققن پاران گڏيل طور تي لکيو ويو آهي، تربيتي ڊيٽا جي سڃاڻپ ڪرڻ لاء هڪ نئون طريقو تجويز ڪري ٿو جيڪو اوپن اي آئي وانگر ماڊل طرفان "ياد" ڪيو ويو آهي جيڪي ايپليڪيشن پروگرامنگ انٽرفيس (اي پي آئي) جي ذريعي خدمت ڪئي وئي آهي.

AI ماڊل لازمي طور تي اڳڪٿي انجڻ آهن، ڊيٽا جي وڏي مقدار تي تربيت ڏني وئي آهي، ۽ اهي مضمون، تصويرون۽ وڌيڪ پيدا ڪرڻ لاء مختلف نمونن کي سکڻ جي قابل آهن. جيتوڻيڪ اڪثر پيداوار تربيتي ڊيٽا جي لفظي نقل نه آهي، ان مان ڪجهه لازمي طور تي ماڊل طرفان ياد ڪيو ويندو ڇاڪاڻ ته اهو "سکڻ" جي طريقي سان. اڳوڻي مطالعي مان معلوم ٿيو آهي ته تصوير ماڊل بار بار پنهنجي تربيتي ڊيٽا ۾ فلمن جا اسڪرين شاٽ پيدا ڪن ٿا، جڏهن ته ٻولين جي ماڊل کي خبرن جي مضمونن کي چوري ڪرڻ لاء ڏٺو ويو آهي.

مطالعي جو بنيادي طريقو محققن جي تجويز ڪيل "اعلي حيرت" لفظن تي منحصر آهي، اهو آهي، لفظ جيڪي وڏي تعداد ۾ ڪم ۾ غير معمولي ظاهر ٿيندا آهن. مثال طور، جملي ۾، "جيڪ ۽ آئون راڊر گنگننگ سان مڪمل طور تي اڃا تائين ويٺا هئاسين"، لفظ "ريڊر" کي انتهائي غير متوقع سمجهيو ويندو آهي ڇاڪاڻ ته اهو "انجڻ" يا "ريڊيو" جهڙن لفظن جي ڀيٽ ۾ "گونجڻ" کان اڳ ظاهر ٿيڻ جو شمارياتي طور تي گهٽ امڪان آهي.

گڏيل ليکڪن ڪيترن ئي اوپن اي آئي ماڊلن جي آزمائش ڪئي، جن ۾ GPT-5 ۽ GPT-0.0 شامل آهن، افسانوي فڪشن ۽ نيويارڪ ٽائمز جي مضمونن جي ڪلپس مان انتهائي غير متوقع لفظن کي هٽائي، ۽ پوء ماڊل کي يادگيري جي نشانين کي ڳولڻ لاء نقاب پوش لفظن کي "اندازو" ڪرڻ جي ڪوشش ڪئي. محققن جي چوڻ موجب،جيڪڏهن ماڊل ڪاميابي سان انهن لفظن جو اندازو لڳائڻ جي قابل آهي، اهو امڪان آهي ته ماڊل تربيت دوران ٽڪرن کي ياد ڪيو.

ٽيسٽ جي نتيجن موجب،جي پي ٽي -4 مشهور فڪشن ڪتابن جي حصن کي ياد ڪندي ڏيکاري ٿو، بشمول ڪاپي رائيٽ ڪيل اي ڪتابن جي نموني تي مشتمل هڪ ڊيٽاسٽ، بوڪ ايم آئي اي ۾ ڪتاب. نتيجن مان اهو به ظاهر ٿيو تهماڊل نيويارڪ ٽائمز مضمون جي حصن کي ياد ڪري ٿو، جيتوڻيڪ نسبتا گهٽ تناسب ۾.

واشنگٽن يونيورسٽي ۾ پي ايڇ ڊي جي شاگردياڻي ۽ مطالعي جي گڏيل ليکڪ اڀيلاشا رويچندر ٽيڪ ڪرنچ کي ٻڌايو ته نتيجن مان "تڪراري ڊيٽا" ظاهر ٿئي ٿو ته ڪهڙي نموني کي تربيت ڏئي سگهجي ٿي.

اوپن اي آئي ڊگهي عرصي کان ماڊل کي ترقي ڪرڻ لاء ڪاپي رائيٽ ڪيل ڊيٽا جي استعمال تي پابندين کي نرم ڪرڻ جي وڪيل ڪئي آهي. جڏهن ته ڪمپني ڪيترن ئي مواد جي لائسنسنگ معاهدن ۾ داخل ٿي چڪي آهي ۽ آپٽ آئوٽ طريقيڪار پيش ڪري ٿي جيڪي ڪاپي رائيٽ مالڪن کي مواد کي فليگ ڪرڻ جي اجازت ڏين ٿا جيڪي اهي تربيت لاء استعمال نه ڪرڻ چاهيندا آهن، ڪمپني اي آئي تربيت جي طريقن جي چوڌاري "منصفانه استعمال" قاعدن کي ڪوڊ ڪرڻ لاء ڪيترن ئي حڪومتن کي لابنگ ڪئي آهي.