اوپن اي آء جي گيبلي، هڪ اڳوڻي انٽرن کي حادثو ڪري ڇڏيو، جنهن کي بائٽس پاران "اي آئي کي زهر ڏيڻ" لاء مقدمو ڪيو ويو؟
تي اپڊيٽ ڪيو ويو: 35-0-0 0:0:0

ليکڪ|هفتيوار اسمائل ميل باڪس|zhouyixiao@pingwest.com

آرٽ اسٽائل جو تصور ڪريو جيڪو اينيميشن ماسٽر هاياو ميازاڪي جي محنت واري ڪوششن جي ڏهاڪن کي ورتو ۽ فريم جي ذريعي فريم کي محتاط طور تي ٺاهيو - جهڙوڪ "ونڊ رائزز" ۾ چئن سيڪنڊن جي رش جو منظر جيڪو هڪ سال کان وڌيڪ وقت لڳو، يا 4-فريم هٿ سان ٺهيل مخلوق جي پويان هڪ سال ۽ ست مهينن لاء "شهزادي مونونوڪي" ۾ زمين ۾ ڊرلنگ ڪري ٿو، ۽ هاڻي، GPT-0o جي هٿن ۾، اهو "توهان جي آڱرين تي" لڳي ٿو. صارفين جوش سان "هڪ ڪلڪ گيبلي" ذاتي تصويرون، انٽرنيٽ ميمز ۽ اڃا تائين تاريخي تصويرون، ۽ انهن جا اثرات حقيقت پسند آهن ۽ انداز متحد آهي، جيڪو جلدي انٽرنيٽ کي روشن ڪري ٿو. بيشمار ماڻهن جي ٽائيم لائنز ميازاڪي جي متوازی ڪائنات ۾ ڀريل آهن. اوپن اي آئي جي سي اي او سام آلٽمن ظاهر ڪيو ته 0o جي تصوير جي پيداوار جي خاصيت هڪ ڪلاڪ اندر لکين نئين صارفين کي راغب ڪيو.

پر جيڪڏهن توهان سوچيو ٿا ته اهو صرف اوپن اي آئي اڳوڻي ڊي ايل-اي کي مضبوط نموني سان تبديل ڪري رهيو آهي، توهان شايد مڪمل تصوير کي نظرانداز ڪري رهيا آهيو. هڪ شوقين نيٽيزن نوٽ ڪيو: "هي صرف هڪ پيداوار اپڊيٽ نه آهي - اهو ممڪن آهي ته هڪ مڪمل مثالي تبديلي هجي." اوپن اي آئي انهن مسئلن کي حل ڪرڻ لڳي ٿو جيڪي ڊگهي عرصي کان اي آئي تصويرون پيدا ڪرڻ جي عمل کي تڪليف ڏني آهي جيڪي تخليق ڪندڙن کي واپس رکيو آهي.

پوء، ڳجهي هٿيار ڇا آهي؟ اوپن اي آئي پاڻ کي هڪ اشارو ڏنو: هن ڀيري تصوير جي پيداوار سڌو سنئون GPT-4o ماڊل ۾ تعمير ڪئي وئي آهي، ۽، ڊي ايل-اي، مڊجرني، ۽ اسٽيبل ڊفليشن جي برعڪس، جيڪي وسيع طور تي ڦهلائڻ واري نموني استعمال ڪن ٿا، اوپن اي آئي ماڊل ڪارڊ ۾ بيان ڪري ٿو: "ڊي ايل جي برعڪس· 0o تصوير جي پيداوار هڪ خودڪار ماڊل آهي جيڪو مقامي طور تي چيٽ جي پي ٽي ۾ شامل آهي"

اهو نوٽ ڪرڻ ضروري آهي ته تصوير جي پيداوار تي آٽوريگريشن جي خيال کي لاڳو ڪرڻ اوپن اي آئي لاء منفرد نه آهي. حقيقت ۾، ڪيئن خودڪار نموني ٺاهڻ لاء جيڪي سلسلي جي اڳڪٿي ۾ سٺا آهن نظر جي ميدان ۾ انهن جي صلاحيت کي مڪمل راند ڏين ٿا هميشه هدايتن مان هڪ آهي جيڪو AI محققن کي قابو ڪرڻ جي ڪوشش ڪري رهيا آهن، هڪ نئين مثال کي ڳولڻ جو مقصد آهي جيڪو مهم جي ڦهلائڻ واري نموني کان مختلف آهي.

مثال طور، تحقيق "بصري آٽوريگريسيو ماڊلنگ: ايندڙ پيماني جي اڳڪٿي جي ذريعي اسڪيليبل تصوير جي پيداوار"، جيڪو مٿي تعليمي ڪانفرنس نيوريپ ايس 2024 جو بهترين ڪاغذ جو ايوارڊ حاصل ڪيو، نه رڳو هڪ جديد VAR طريقو تجويز ڪري ٿو، اهو تصوير جي پيداوار ۾ خودڪار ماڊل جي معيار ۽ ڪارڪردگي کي خاص طور تي بهتر بڻائي ٿو، ۽ تجربن ۾ پهريون ڀيرو ثابت ڪري ٿو ته GPT وانگر خالص خودڪار ماڊل تصوير جي پيداوار جي ڪمن ۾ ان وقت مٿي نموني ٽرانسفارمر ماڊل کي پار ڪرڻ جي صلاحيت رکي ٿو.

اهو مقالو پيڪنگ يونيورسٽي ۽ بائٽ ڊانس جي محققن پاران گڏيل طور تي لکيو ويو هو. انتهائي ٽيڪنالاجي ڪاغذ ۾ وڌيڪ موضوعيت شامل ڪرڻ ان جي پهرين ليکڪ، ٽيان ڪيو جي سڃاڻپ آهي، جيڪو اڳوڻو بائٽ انٽرن آهي، جيڪو بائٽ ڊانس جي تربيتي ڪلاسٽر تي مبينا طور تي حملو ڪرڻ ۽ وڏن دعون کي منهن ڏيڻ لاء گهڻو ڌيان ڏنو آهي.

هڪ غير متوقع طريقي سان، هي "وڌندڙ سون جو مواد" انٽرن اي آئي تصوير جي نسل جي ڪٽڻ واري تحقيق سان ڳنڍيل آهي.

1

خود موٽڻ جي "بحالي"

تصوير جي پيداوار ۾ GPT-4o جي ڪاميابي جي ڪنجين مان هڪ ان جي دعويٰ ڪيل آٽوريگريشن (اي آر) رستو آهي، جيڪو مهم جي ڦهلائڻ واري نموني کان تمام مختلف آهي. هن فرق کي سمجهڻ هن امڪاني "مثالي تبديلي" کي پڪڙڻ لاء مرڪزي آهي.

ڦهلائڻ وارا ماڊل، جهڙوڪ مڊجورني ۽ اسٽيبل ڊيفليشن، بي ترتيب شور کان شروع ڪرڻ جي اصول تي ٻڌل آهن، ڊيٽا جي تقسيم کي رفته رفته ڊينوئس تائين سکڻ، ۽ آخر ۾ تصويرون پيدا ڪن ٿا، جيڪي اعلي معيار، حقيقت پسند تصويرون پيدا ڪرڻ ۾ مضبوط آهن، پر اڪثر ڪري رفتار، ڪمپيوٽيشنل قيمت، ۽ پيچيده هدايتن جي صحيح سمجهه، خاص طور تي متن جي پيشڪش جي لحاظ کان گهٽ آهن.

خودڪار ماڊل جي پي ٽي جي طريقي سان متن تي عمل ڪرڻ جي طريقي کان قرض وٺندو آهي: ترتيب ۾ ايندڙ عنصر جي اڳڪٿي. تصوير تي، ان جو مطلب اهو آهي ته ماڊل پيدا ڪيل حصن جي بنياد تي هڪ مڪمل تصوير قدم قدم ٺاهي ٿو، جهڙوڪ پکسلز يا تصوير ٽيگ. نظرياتي طور تي، اهو اي آر کي ضمني فڪر، تفصيلي ڪنٽرول ، ۽ مطابقت جو فائدو ڏئي ٿو. بهرحال، روايتي اي آر طريقن ۾ گهٽ ڪارڪردگي ۽ غلطي واري نموني جا مسئلا آهن، ۽ اهو ڊگهي عرصي تائين اثر جي لحاظ کان ڦهلائڻ واري نموني سان ملڻ ڏکيو ٿي چڪو آهي.

تازو سالن ۾، تحقيق جهڙوڪ بصري آٽوريگريشن ماڊلنگ (VAR) ۽ ماسڪ آٽوريگريشن ماڊلنگ (ايم اي آر) اي آر کي "جواز" ڏيڻ شروع ڪيو آهي. وي اي آر پاران تجويز ڪيل "پوئين پيماني تي اڳڪٿي" (موٽي کان سٺي نسل) وانگر جدت اي آر ماڊل جي تصوير جي معيار ۽ نسل جي ڪارڪردگي کي خاص طور تي بهتر بڻايو آهي، اهو ثابت ڪري ٿو ته اي آر رستا نه رڳو ممڪن آهن، پر اڃا تائين ڦهلائڻ واري نموني کي پار ڪرڻ جي صلاحيت آهي. وي اي آر ۽ ٻين مطالعن کي GPT-4o لاء نظرياتي اتساهه فراهم ڪري سگھي ٿو، ۽ GPT-0o جي مشق وڌيڪ بصري نسل ۾ خودڪار نموني جي فزيبلٽي جي تصديق ڪري ٿي، اي آر کي تصوير جي پيداوار جي ميدان ۾ "بحالي" جي امڪان ۾ داخل ڪري ٿو.

تنهن ڪري، جي پي ٽي-4o جي تصوير جي پيداوار ڪيئن ڪم ڪري ٿو؟ اوپن اي آئي زور ڏئي ٿو ته ان جي تصوير جي فنڪشن نموني جي بنيادي طور تي ضم ٿيل آهن، بلڪه اسٽينڊ اڪيلو ماڊيول جي بدران. ان جو مطلب اهو آهي ته 0o تصوير جي پيداوار جي رهنمائي ڪرڻ لاء پنهنجي طاقتور ٻولي جي فڪر ۽ دنيا جي علم جو مڪمل فائدو وٺي سگهي ٿو، بي مثال ضمني فڪر ۽ هدايت جي پيروي جي صلاحيتن کي قابل بڻائي سگھي ٿو - جهڙوڪ مخصوص فارمولن سان وائيٽ بورڊ کي صحيح طور تي ڊرائنگ ڪرڻ. اهو گهڻو انضمام بهترين 0o اثر جي ڪنجي آهي.

بهرحال، هڪ ليڪ ٿيل اندروني وائيٽ بورڊ نقشو (ٽرانسفارمر-> ڦهلائڻ واري عمل سان ليبل) ان جي "خالص" آٽوريگريشن بابت سوال اٿاري ٿو، ممڪن طور تي هڪ هائبرڊ آرڪيٽيڪچر استعمال ڪندي: اهو آهي، هڪ وچولي نمائندگي پيدا ڪرڻ لاء اي آر جي فڪر کي استعمال ڪندي، آخري تصوير کي پيدا ڪرڻ لاء ڦهلائڻ جي پکسل نسل جي فائدي سان گڏ. اهو اندازو ظاهر ڪري ٿو ته 4o شايد ٻنهي رستن جي بهترين کي پنهنجي لاڳاپيل خامين کي منهن ڏيڻ لاء گڏ ڪيو آهي. بهرحال، اهو رد نٿو ڪري سگهجي ته اوپن اي آئي ڄاڻي واڻي حقيقتن کي ختم ڪري رهي آهي.

ڇاڪاڻ ته ڪا به ٽيڪنيڪل رپورٽ نه آهي، خاص عملدرآمد جا تفصيل اڃا تائين هڪ اسرار آهن، پر اوپن اي آئي جي اسٽريٽجڪ ارادا واضح آهن: پهريون، ملٽي موڊل ماڊل جي ايندڙ نسل جي تصوير جي پيداوار جي بنياد تي خودڪار اصول رکڻ لاء؛ ٻيو اهو آهي ته هن سڀني لاء ڪمپيوٽنگ جي طاقت ۽ انٽيليجنس بنياد مهيا ڪرڻ لاء ان جي الٽرا وڏي پيماني جي ماڊل تي ڀروسو ڪيو وڃي. آخري ٽيڪنالاجي "نسخي" جي باوجود، GPT-4o آٽوريگريشن کي اڳتي وڌايو آهي، جيڪو اي آئي تصوير جي پيداوار جي مستقبل جي رخ کي تبديل ڪرڻ جو امڪان آهي.

1

چين ۽ آمريڪا جي وچ ۾ گرمي جو فرق

GPT-4o تصوير جي پيداوار جي ڪاميابي ڌيان ڏيڻ جي لائق هڪ واقعي جو سبب بڻجي وئي آهي: ڇا اهو ٻولي نموني يا وڊيو ماڊل آهي، چيني ڪمپنيون جلدي پڪڙي رهيا آهن، پر جڏهن اهو ڪٽڻ واري تصوير جي پيداوار تي اچي ٿو، اهو لڳي ٿو ته اهو هميشه آمريڪي ڪمپنيون آهن جيڪي سڀ کان اڳ ۾ "سولوئنگ" آهن؟ ڇا اهو مڊجورني کان جيميني تصوير کان 0o تائين آهي، چين ۾ هڪ ڪمپني يا پيداوار نظر نه ٿو اچي جيڪو ان سان "بينچ مارڪ" ڪري سگهي ٿو.

اسان هن "درجہ حرارت جي فرق" کي ٽيڪنالاجي ۽ تجارتي ٻنهي نقطي نظر کان ڏسي سگهون ٿا. ٽيڪنالاجي طور تي، مٿي آمريڪي ڪمپنيون نئين رستن کي ڳولڻ ۽ شرط لڳائڻ لاء وڌيڪ مائل نظر اچن ٿيون جهڙوڪ آٽوريگريشن (اي آر) جيڪو هڪ مثالي انقلاب جو سبب بڻجي سگهي ٿو، شايد بنيادي تحقيق ۾ انهن جي ڊگهي عرصي جي سرمائي ۽ خطري لاء وڌيڪ رواداري جي مهرباني. اوپن اي آئي جي خودڪار تصوير جي پيداوار جو ماڊل، تصوير جي پي ٽي، 2020 سالن ۾ شروع ڪيو ويو هو، جنهن جو مقصد تصوير جي پيداوار جي ميدان ۾ قدرتي ٻولي جي پروسيسنگ ۾ ٽرانسفارمر آرڪيٽيڪچر کي لاڳو ڪرڻ آهي.

گهريلو قوتون شايد بالغ ڦهلائڻ واري رستي کي ترتيب ڏيڻ ۽ جلدي ان کي لاڳو ڪرڻ تي وڌيڪ ڌيان ڏئي سگهن ٿيون، جيڪا پڪڙڻ واري مرحلي ۾ تمام موثر آهي، پر اهو هڪ خاص رستي جي انحصار کي پڻ آڻي سگهي ٿو. انهي سان گڏ، ڪمپيوٽنگ جي طاقت، اعلي معيار جي ڊيٽا، ۽ بنيادي الگورٿم جدت جي ضرورت آهي ته مٿين نمونن لاء پاڻ کي هڪ اهم رڪاوٽ ٺاهي. هڪ نظريو آهي ته ڦهلائڻ وارو ماڊل شايد هڪ رڪاوٽ تي پهچي چڪو آهي ۽ فوري طور تي ڀڃڻ جي ضرورت آهي.

تجارتي طور تي، مارڪيٽ جي پوزيشن ۽ موٽائيزيشن ماڊل پڻ مختلف ترقياتي هدايتن کي شڪل ڏني آهي. مڊجرني، GPT-4o، وغيره، پروفيسر صارفين تي وڌيڪ مقصد نظر اچن ٿا جيڪي ادا ڪرڻ جي مضبوط خواهش سان آخري اثر يا مارڪيٽن جي ضرورت آهي، "ڌماڪيدار" اوزار ٺاهڻ ۽ سڌو سنئون چارج ڪرڻ جي پيروي ڪري رهيا آهن. چين جي وڏن ايپليڪيشن منظرنامن (اي ڪامرس، سماجي نيٽ ورڪنگ، مارڪيٽنگ وغيره) شايد موجوده ماحولياتي نظام سان وڌيڪ قيمتي، موثر ۽ ضم ٿي سگهي ٿو، ٽيڪنالاجي جي ترقي کي انجنيئرنگ جي اصلاح ۽ پليٽ فارم بااختيار ڪرڻ جي طرف وڌيڪ جانبدار هجڻ جي بدران، هڪ واحد اوزار جي انتهائي تحقيق جي بدران. اهو تقسيم پڻ مختلف سرمائي جي ترجيحن ۽ ماحولياتي انضمام جي حڪمت عملين جي ذريعي وڌايو ويو آهي.

يقينا، اهو چوڻ نه آهي ته چين بايوگرافڪس جي شعبي ۾ ڪاميابيون حاصل نه ڪيون آهن. علي بابا، بائٽ ۽ ڊيپ سيڪ جهڙيون ڪمپنيون پڻ مقابلي جي ماڊل شروع ڪرڻ جاري آهن. اهو صرف اهو آهي ته عالمي "ڌماڪيدار ماڊل" جي سطح تي، آمريڪي ڪمپنيون عارضي طور تي اڳواڻي ڪري رهيا آهن.

ڏينهن جي آخر ۾، ٽيڪنالاجي ۽ ڪاروبار جي مطابقت موجوده منظر نامي کي شڪل ڏئي رهي آهي. خود رجعت جي نئين لهر سان جيڪو GPT-4o جي اڳواڻي ڪري سگهي ٿو، اسان بيشڪ هن طرف کليل ذريعن جي ترقي کي ڏسڻ لاء انتظار نه ڪري سگهون ٿا، يا چيني ادارن جي تيز پيروي ۽ عمل.

"پيار" تي ڪلڪ ڪريو ۽ اچو ته وڃون

جهڙوڪ

حصيداري ڪريو

مشهور

تبصرو ڪريو