Ghibli ของ OpenAI ทําให้อดีตนักศึกษาฝึกงานที่ถูก Bytes ฟ้องร้องในข้อหา "วางยาพิษ AI"?
อัปเดตเมื่อ: 35-0-0 0:0:0

ผู้เขียน|กล่องจดหมาย WeeklySmile|zhouyixiao@pingwest.com

ลองนึกภาพสไตล์ศิลปะที่ใช้เวลาหลายทศวรรษของความพยายามอย่างอุตระหยะของปรมาจารย์แอนิเมชั่น Hayao Miyazaki และสร้างขึ้นอย่างพิถีพิถันทีละเฟรม เช่น ฉากฝูงชนสี่วินาทีใน "The Wind Rises" ที่ใช้เวลานานกว่าหนึ่งปี หรือฉาก 4 เฟรมที่วาดด้วยมือด้านหลังสิ่งมีชีวิตที่เจาะลงไปในพื้นใน "Princess Mononoke" เป็นเวลาหนึ่งปีเจ็ดเดือน และตอนนี้ อยู่ในมือของ GPT-0o ดูเหมือนว่าจะ "อยู่ที่ปลายนิ้วของคุณ" ผู้ใช้ตื่นเต้น "คลิกเดียว Ghibli" รูปภาพส่วนตัว มีมทางอินเทอร์เน็ต และแม้แต่ภาพประวัติศาสตร์ และเอฟเฟกต์ของพวกเขามีความสมจริงและสไตล์เป็นหนึ่งเดียว ซึ่งจุดประกายอินเทอร์เน็ตอย่างรวดเร็ว ไทม์ไลน์ของผู้คนนับไม่ถ้วนถูกยัดเยียดเข้าไปในจักรวาลคู่ขนานของมิยาซากิ Sam Altman ซีอีโอของ OpenAI เปิดเผยว่าคุณลักษณะการสร้างภาพของ 0o ดึงดูดผู้ใช้ใหม่หลายล้านคนภายในหนึ่งชั่วโมง

แต่ถ้าคุณคิดว่าเป็นเพียง OpenAI แทนที่ DALL-E รุ่นก่อนหน้าด้วยโมเดลที่แข็งแกร่งกว่า คุณอาจเพิกเฉยต่อภาพรวมทั้งหมด ชาวเน็ตที่กระตือรือร้นตั้งข้อสังเกตว่า: "นี่ไม่ใช่แค่การอัปเดตผลิตภัณฑ์ แต่น่าจะเป็นการเปลี่ยนแปลงกระบวนทัศน์ที่สมบูรณ์" ดูเหมือนว่า OpenAI จะแก้ปัญหาที่รบกวนกระบวนการสร้างภาพ AI ที่ขัดขวางผู้สร้างมานาน

แล้วอาวุธลับคืออะไร? OpenAI เองก็ให้เบาะแส: คราวนี้การสร้างภาพถูกสร้างขึ้นโดยตรงในโมเดล GPT-4o และไม่เหมือนกับ DALL-E, Midjourney และ Stable Diffusion ซึ่งใช้โมเดลการแพร่กระจายอย่างแพร่หลาย OpenAI ระบุในการ์ดโมเดล: "ไม่เหมือน DALL· การสร้างภาพ 0o เป็นโมเดลถดถอยอัตโนมัติที่ฝังอยู่ใน ChatGPT"

สิ่งสําคัญคือต้องทราบว่าการใช้แนวคิดเรื่องการถดถอยอัตโนมัติกับการสร้างภาพไม่ได้มีเฉพาะใน OpenAI เท่านั้น ในความเป็นจริงวิธีการสร้างแบบจําลองการถดถอยอัตโนมัติที่เก่งในการทํานายลําดับให้เล่นอย่างเต็มที่ในขอบเขตการมองเห็นเป็นหนึ่งในทิศทางที่นักวิจัย AI พยายามเอาชนะโดยมุ่งเป้าไปที่การค้นหากระบวนทัศน์ใหม่ที่แตกต่างจากแบบจําลองการแพร่กระจายกระแสหลัก

ตัวอย่างเช่น งานวิจัย "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction" ซึ่งได้รับรางวัล Best Paper Award จากการประชุมวิชาการชั้นนํา NeurIPS 2024 ไม่เพียงแต่เสนอวิธี VAR ที่เป็นนวัตกรรมใหม่เท่านั้น ช่วยปรับปรุงคุณภาพและประสิทธิภาพของโมเดลการถดถอยอัตโนมัติในการสร้างภาพได้อย่างมีนัยสําคัญ และพิสูจน์เป็นครั้งแรกในการทดลองว่าโมเดลการถดถอยอัตโนมัติที่เหมือน GPT มีศักยภาพที่จะแซงหน้าโมเดล Transformer การแพร่กระจายสูงสุดในขณะนั้นในงานสร้างภาพ

บทความนี้เขียนร่วมกันโดยนักวิจัยจากมหาวิทยาลัยปักกิ่งและ ByteDance การเพิ่มประเด็นให้กับเอกสารทางเทคนิคสูงนี้คือตัวตนของผู้เขียนคนแรก Tian Keyu ซึ่งเป็นอดีตนักศึกษาฝึกงานไบต์ที่ดึงดูดความสนใจอย่างมากจากการถูกกล่าวหาว่าโจมตีกลุ่มการฝึกอบรมของ ByteDance และเผชิญกับการเรียกร้องครั้งใหญ่

ในทางที่ไม่คาดคิด "ปริมาณทองคําที่เพิ่มขึ้น" นี้เกี่ยวพันกับการสํารวจที่ล้ําสมัยของการสร้างภาพ AI

1

"การฟื้นฟู" ของการกลับคืนสู่ตนเอง

หนึ่งในกุญแจสําคัญสู่ความก้าวหน้าของ GPT-4o ในการสร้างภาพคือเส้นทางการถดถอยอัตโนมัติ (AR) ที่อ้างสิทธิ์ ซึ่งแตกต่างจากโมเดลการแพร่กระจายกระแสหลักอย่างมาก การทําความเข้าใจความแตกต่างนี้เป็นหัวใจสําคัญในการเข้าใจ "การเปลี่ยนแปลงกระบวนทัศน์" ที่อาจเกิดขึ้นนี้

โมเดลการแพร่กระจาย เช่น Midjourney และ Stable Diffusion ขึ้นอยู่กับหลักการของการเริ่มต้นจากสัญญาณรบกวนแบบสุ่ม เรียนรู้การกระจายข้อมูลเพื่อค่อยๆ denois และในที่สุดก็สร้างภาพซึ่งแข็งแกร่งในการสร้างภาพคุณภาพสูงและสมจริง แต่มักจะขาดในแง่ของความเร็ว ต้นทุนการคํานวณ และความเข้าใจที่ถูกต้องของคําสั่งที่ซับซ้อน โดยเฉพาะการแสดงข้อความ

โมเดลการถดถอยอัตโนมัติยืมมาจากวิธีที่ GPT ประมวลผลข้อความ: การคาดการณ์องค์ประกอบถัดไปตามลําดับ บนรูปภาพ ซึ่งหมายความว่าโมเดลจะสร้างรูปภาพที่สมบูรณ์ทีละขั้นตอนตามส่วนที่สร้างขึ้น เช่น พิกเซลหรือแท็กรูปภาพ ในทางทฤษฎีสิ่งนี้ทําให้ AR ได้เปรียบในการทําความเข้าใจตามบริบทการควบคุมรายละเอียดและความสอดคล้องกัน อย่างไรก็ตาม วิธีการ AR แบบดั้งเดิมมีปัญหาเรื่องประสิทธิภาพต่ําและเกิดข้อผิดพลาดได้ง่าย และเป็นการยากที่จะจับคู่โมเดลการแพร่กระจายในแง่ของเอฟเฟกต์มาเป็นเวลานาน

ในช่วงไม่กี่ปีที่ผ่านมาการวิจัยเช่น Visual Autoregressive Modeling (VAR) และ Mask Autoregressive Modeling (MAR) ได้เริ่ม "พิสูจน์" AR นวัตกรรมต่างๆ เช่น "การคาดการณ์ระดับถัดไป" (การสร้างแบบหยาบถึงละเอียด) ที่เสนอโดย VAR ได้ปรับปรุงคุณภาพของภาพและประสิทธิภาพการสร้างของโมเดล AR อย่างมีนัยสําคัญ ซึ่งพิสูจน์ให้เห็นว่าเส้นทาง AR ไม่เพียงแต่เป็นไปได้ แต่ยังมีศักยภาพที่จะเหนือกว่าโมเดลการแพร่กระจายอีกด้วย VAR และการศึกษาอื่นๆ อาจให้แรงบันดาลใจทางทฤษฎีสําหรับ GPT-4o และการปฏิบัติของ GPT-0o จะตรวจสอบความเป็นไปได้ของแบบจําลองการถดถอยอัตโนมัติในการสร้างภาพ ทําให้ AR นําไปสู่ความเป็นไปได้ของ "การฟื้นฟู" ในด้านการสร้างภาพ

การสร้างภาพของ GPT-4o ทํางานอย่างไรกันแน่? OpenAI เน้นว่าฟังก์ชันภาพของมันถูกรวมเข้ากับแกนกลางของโมเดลโดยกําเนิด แทนที่จะเป็นโมดูลแบบสแตนด์อโลน ซึ่งหมายความว่า 0o สามารถใช้ประโยชน์จากความเข้าใจภาษาที่ทรงพลังและความรู้ระดับโลกอย่างเต็มที่เพื่อเป็นแนวทางในการสร้างภาพ ทําให้สามารถทําความเข้าใจตามบริบทและความสามารถในการปฏิบัติตามคําแนะนําอย่างที่ไม่เคยมีมาก่อน เช่น การวาดไวท์บอร์ดด้วยสูตรเฉพาะอย่างแม่นยํา การบูรณาการอย่างลึกซึ้งนี้เป็นกุญแจสําคัญของเอฟเฟกต์ 0o ที่ยอดเยี่ยม

อย่างไรก็ตาม แผนที่ไวท์บอร์ดภายในที่รั่วไหลออกมา (ติดป้ายกํากับด้วยกระบวนการ Transformer-> Diffusion) ทําให้เกิดคําถามเกี่ยวกับการถดถอยอัตโนมัติที่ "บริสุทธิ์" ซึ่งอาจใช้สถาปัตยกรรมแบบไฮบริด: นั่นคือการใช้ความเข้าใจของ AR เพื่อสร้างการแสดงระดับกลาง รวมกับข้อได้เปรียบในการสร้างพิกเซลของ Diffusion เพื่อส่งออกภาพสุดท้าย การคาดเดานี้ชี้ให้เห็นว่า 4o อาจรวมสิ่งที่ดีที่สุดของทั้งสองเส้นทางเข้าด้วยกันเพื่อหลีกเลี่ยงข้อบกพร่องตามลําดับ อย่างไรก็ตาม ไม่สามารถตัดออกได้ว่า OpenAI จงใจทําให้ข้อเท็จจริงสับสน

เนื่องจากไม่มีรายงานทางเทคนิครายละเอียดการใช้งานที่เฉพาะเจาะจงจึงยังคงเป็นปริศนา แต่ความตั้งใจเชิงกลยุทธ์ของ OpenAI นั้นชัดเจนประการแรก เพื่อให้หลักการถดถอยอัตโนมัติเป็นแกนหลักของการสร้างภาพของโมเดลมัลติโมดอลรุ่นต่อไป ประการที่สองคือการพึ่งพาโมเดลขนาดใหญ่พิเศษเพื่อให้พลังการประมวลผลและรากฐานด้านความฉลาดสําหรับทั้งหมดนี้ โดยไม่คํานึงถึง "สูตร" ทางเทคนิคขั้นสุดท้าย GPT-4o ได้ผลักดันการถดถอยอัตโนมัติไปสู่ระดับแนวหน้า ซึ่งมีแนวโน้มที่จะเปลี่ยนทิศทางในอนาคตของการสร้างภาพ AI

1

ช่องว่างอุณหภูมิระหว่างจีนและสหรัฐอเมริกา

ความสําเร็จของการสร้างภาพ GPT-4o ได้นําไปสู่ปรากฏการณ์ที่ควรค่าแก่การให้ความสนใจ: ไม่ว่าจะเป็นโมเดลภาษาหรือโมเดลวิดีโอ บริษัทจีนกําลังตามทันอย่างรวดเร็ว แต่เมื่อพูดถึงการสร้างภาพที่ล้ําสมัย ดูเหมือนว่าบริษัทอเมริกันมักจะ "เดี่ยว" อยู่ในระดับแนวหน้า? ไม่ว่าจะเป็น Midjourney ถึง Gemini Image ไปจนถึง 0o ดูเหมือนว่าจะไม่มีบริษัทหรือผลิตภัณฑ์ในประเทศจีนที่สามารถ "เปรียบเทียบ" กับมันได้

เราสามารถดู "ความแตกต่างของอุณหภูมิ" นี้ได้จากทั้งมุมมองทางเทคนิคและเชิงพาณิชย์ ในทางเทคนิค บริษัทชั้นนําของสหรัฐฯ ดูเหมือนจะมีแนวโน้มที่จะสํารวจและเดิมพันเส้นทางใหม่ๆ เช่น การถดถอยอัตโนมัติ (AR) ที่อาจนําไปสู่การปฏิวัติกระบวนทัศน์ อาจเป็นเพราะการลงทุนระยะยาวในการวิจัยพื้นฐานและความอดทนต่อความเสี่ยงที่มากขึ้น โมเดลการสร้างภาพถดถอยอัตโนมัติของ OpenAI Image GPT เปิดตัวใน 2020 ปี โดยมีเป้าหมายเพื่อใช้สถาปัตยกรรม Transformer ในการประมวลผลภาษาธรรมชาติกับด้านการสร้างภาพ

กองกําลังภายในประเทศอาจมุ่งเน้นไปที่การเพิ่มประสิทธิภาพเส้นทางการแพร่กระจายที่โตเต็มที่และนําไปใช้อย่างรวดเร็ว ซึ่งมีประสิทธิภาพมากในขั้นตอนการไล่ตาม แต่ก็อาจนํามาซึ่งการพึ่งพาเส้นทางบางอย่าง ในขณะเดียวกันพลังการประมวลผลข้อมูลคุณภาพสูงและนวัตกรรมอัลกอริทึมหลักที่จําเป็นสําหรับโมเดลชั้นยอดเองก็เป็นอุปสรรคที่สําคัญ มีมุมมองว่าโมเดล Diffusion อาจถึงคอขวดและจําเป็นต้องผ่านไปอย่างเร่งด่วน

ในเชิงพาณิชย์การวางตําแหน่งตลาดและรูปแบบการสร้างรายได้ยังกําหนดทิศทางการพัฒนาที่แตกต่างกัน Midjourney, GPT-4o ฯลฯ ดูเหมือนจะมุ่งเป้าไปที่ผู้ใช้มืออาชีพที่ต้องการเอฟเฟกต์สูงสุดหรือตลาดที่เต็มใจที่จะจ่าย สถานการณ์การใช้งานขนาดใหญ่ของจีน (อีคอมเมิร์ซ โซเชียลเน็ตเวิร์ก การตลาด ฯลฯ) อาจคุ้มค่า มีประสิทธิภาพ และรวมเข้ากับระบบนิเวศที่มีอยู่มากกว่า ทําให้การพัฒนาเทคโนโลยีมีอคติมากขึ้นต่อการเพิ่มประสิทธิภาพทางวิศวกรรมและการเสริมอํานาจของแพลตฟอร์ม การแบ่งแยกนี้ยังรุนแรงขึ้นจากความชอบด้านเงินทุนและกลยุทธ์การบูรณาการทางนิเวศวิทยาที่แตกต่างกัน

แน่นอนว่านี่ไม่ได้หมายความว่าจีนไม่ได้สร้างความสําเร็จในด้านชีวประวัติ บริษัทต่างๆ เช่น Alibaba, Byte และ DeepSeek ยังคงเปิดตัวโมเดลการแข่งขันอย่างต่อเนื่อง เพียงแต่ในระดับ "แบบจําลองระเบิด" ระดับโลก บริษัท อเมริกันเป็นผู้นําชั่วคราว

ในตอนท้ายของวันการทํางานร่วมกันของเทคโนโลยีและธุรกิจกําลังกําหนดภูมิทัศน์ในปัจจุบัน ด้วยคลื่นลูกใหม่ของการถดถอยตนเองที่ GPT-4o อาจนําไปสู่เราแทบรอไม่ไหวที่จะได้เห็นความคืบหน้าของโอเพ่นซอร์สในทิศทางนี้หรือการติดตามผลและการใช้งานอย่างรวดเร็วขององค์กรจีน

คลิกที่ "ความรัก" แล้วไปกันเถอะ

ชอบ

ใช้ร่วมกัน

เป็นที่นิยม

ติชม