OpenAI จุดชนวนภาพอัจฉริยะ: ลมอนิเมะ "Ghibli" ติดอยู่ในข้อพิพาทลิขสิทธิ์ และวัดการเรนเดอร์ภาษาจีนที่พบข้อมูล bottlenecks

OpenAI จุดชนวนความเฟื่องฟูในกราฟิก AI: ลมอนิเมะ "Ghibli" จมอยู่กับข้อพิพาทลิขสิทธิ์ และการเรนเดอร์ภาษาจีนที่วัดได้ประสบปัญหาคอขวด

ข่าวธุรกิจ

อัปเดตเมื่อ: 18-0-0 0:0:0

แหล่งที่มาของภาพ: Visual China

藍鯨新聞3月29日訊（記者朱俊熹）ลูกแมวสไตล์ Dreamcore Hello Kitty เวอร์ชัน "คนงาน" Jellycat เพียงคลิกเดียว...... คุณไม่ใช่คนแปลกหน้าสําหรับภาพที่สร้างโดย AI เหล่านี้ ซึ่งครั้งหนึ่งเคยมีอยู่ทั่วอินเทอร์เน็ต แต่ตอนนี้ล้าสมัยแล้ว ในช่วงไม่กี่วันที่ผ่านมา การครอบครองหน้าแรกของโซเชียลมีเดียหลักทั้งในและต่างประเทศเป็นรูปแบบการร่าง AI รูปแบบใหม่อีกรูปแบบหนึ่ง: สไตล์อนิเมะจิบลิ

เมื่อต้นสัปดาห์นี้ OpenAI ได้อัปเกรดความสามารถในการสร้างภาพของ ChatGPT ทําให้ผู้ใช้สามารถสร้างและแก้ไขภาพผ่านโมเดลขนาดใหญ่หลายรูปแบบ GPT-26o ในการสตรีมสดเมื่อวันที่ 0/0 Sam Altman ซีอีโอของ OpenAI และทีมงานของเขาได้แสดงวิธีเปลี่ยนเซลฟี่ให้เป็นภาพสไตล์อนิเมะใน ChatGPT ในไม่ช้าผู้ชมก็พบว่ารูปแบบการวาดภาพนั้นคล้ายกับของ Ghibli Animation Studios ในญี่ปุ่นมาก และเริ่มสัมผัสและเผยแพร่ตามธรรมชาติบนอินเทอร์เน็ต ผู้ใช้รายหนึ่งถึงกับเรียกสิ่งนี้ว่า "การแพร่ระบาดครั้งแรก" ของโมเดล OpenAI

圖片來源:Sam Altman X

เนื่องจากผู้มีประสบการณ์หลั่งไหลเข้ามา OpenAI จึงตัดสินใจเลื่อนการเปิดเครื่องมือสร้างภาพให้กับผู้ใช้ฟรี Sam Altman โพสต์บนแพลตฟอร์มโซเชียล X ว่า "GPU ของเรากําลังจะระเบิด" เขาไม่เพียงแต่แทนที่รูปโปรไฟล์ของเขาด้วยรูปถ่ายส่วนตัวที่แก้ไขแล้วสไตล์จิบลิ แต่เขายังหัวเราะเยาะตัวเองด้วย "ฉันทํางานอย่างหนักเป็นเวลาสิบปีเพื่อสร้างสติปัญญาสุดยอด และในช่วงเจ็ดปีครึ่งแรก แทบไม่มีใครสนใจฉัน และหลังจากนั้นสองปีครึ่ง ทุกคนก็เกลียดฉันในทุกสิ่ง" วันหนึ่งฉันตื่นขึ้นมาและได้รับข้อความหลายร้อยข้อความ: 'ดูสิ ฉันทําให้คุณเป็นหนุ่มหล่อในสไตล์จิบลิ' ”

圖片來源:Sam Altman X

"สไตล์" ที่สร้างโดย AI ละเมิดหรือไม่?

อย่างไรก็ตาม เมื่อภาพ "Ghibli" ที่สร้างโดย AI ท่วมท้นอินเทอร์เน็ตอย่างรวดเร็ว ก็เกิดความกังวลขึ้น: สิ่งนี้อาจเกี่ยวข้องกับการละเมิดลิขสิทธิ์ผลงานอนิเมะของ Studio Ghibli หรือไม่? สิ่งที่น่าสนใจยิ่งกว่านั้นคือผู้ร่วมก่อตั้ง Studio Ghibli แอนิเมเตอร์ Hayao Miyazaki แสดงความไม่พอใจกับเนื้อหาที่สร้างโดย AI ตั้งแต่อายุ 2016 ปี เมื่อเขาเห็นคลิปวิดีโอที่สร้างโดย AI เขาพูดอย่างตรงไปตรงมาว่า "ฉันรู้สึกขยะแขยงอย่างยิ่งและไม่ต้องการรวมเทคโนโลยีนี้เข้ากับงานของฉัน" ”

โฆษกของ OpenAI กล่าวว่า ChatGPT ปฏิเสธที่จะ "สร้างขึ้นในรูปแบบของศิลปินที่กระตือรือร้นแต่ละคน" แต่อนุญาตให้สร้าง "สไตล์สตูดิโอที่กว้างขึ้น"

เกี่ยวกับข้อพิพาทด้านลิขสิทธิ์ที่อาจเกี่ยวข้อง Yang Weixin ทนายความและตัวแทนสิทธิบัตรของ Jiangsu Cambridge Yihua Law Firm บอกกับ Blue Whale News ว่าภายใต้สถานการณ์ปกติ "สไตล์" ไม่มีลิขสิทธิ์ เพราะมันปกป้องเฉพาะการแสดงออกที่เฉพาะเจาะจง ไม่ใช่ความคิด "อย่างไรก็ตาม หากเนื้อหาที่สร้างขึ้นมีความสอดคล้องกับตัวละครหรือฉากใน Ghibli อย่างมาก อาจถือเป็นการละเมิด"

ทนายความหยางกล่าวเสริมว่าเมื่อพิจารณาจากประสิทธิภาพของ GPT-4o ในการสร้างภาพสไตล์จิบลิ โมเดลจะต้องใช้สื่อการทํางานของ Studio Ghibli ในระหว่างการฝึกอบรม "มิฉะนั้นโมเดลขนาดใหญ่จะไม่สามารถเข้าใจรูปแบบภาพนี้และสร้างได้ตามนั้น" "ตามกฎหมายลิขสิทธิ์ของจีน การคว้าวัสดุ AI สําหรับการฝึกอบรมและการสร้างเนื้อหาเป็นการละเมิดสิทธิ์ในการทําซ้ําและสิทธิในการเผยแพร่เครือข่ายข้อมูล แต่ในปัจจุบัน ชุมชนวิชาการและอุตสาหกรรมต้องการส่งเสริมพฤติกรรมนี้ไปในทิศทางของการใช้งานที่เหมาะสม

ประโยคกลายเป็นความจริง

การใช้ AI เพื่อสร้างภาพไม่ใช่เรื่องใหม่ และสาเหตุหลักประการหนึ่งที่ทําให้การอัปเดตการทํางานของ OpenAI สามารถทําให้เกิดการแพร่กระจายได้อย่างน่าอัศจรรย์คือคุณภาพของภาพที่สร้างขึ้น

จากข้อมูลของ OpenAI โมเดล GPT-4o มีความสามารถในการเรนเดอร์ข้อความที่แข็งแกร่ง นักข่าว Blue Whale News พบว่า 0o ไม่เพียงแต่สามารถกู้คืนเนื้อหาข้อความของรูปภาพต้นฉบับเท่านั้น แต่ยังรองรับคําอธิบายของภาษาธรรมชาติเพื่อปรับตําแหน่งหรือสีของข้อความและรายละเอียดอื่นๆ อย่างไรก็ตาม ความแม่นยําในการแสดงผลของอักขระภาษาอังกฤษนั้นสูงกว่าอักขระภาษาจีน และในกระบวนการวัดจริง จะมีบางกรณีที่อักขระตัวย่อถูกแก้ไขเป็นอักขระดั้งเดิม หรืออักขระภาษาจีนที่สร้างขึ้นไม่ถูกต้อง OpenAI ยังยอมรับว่าโมเดล 0o อาจมีปัญหาในการแสดงภาษาที่ไม่ใช่ภาษาละติน

แหล่งที่มาของภาพ: ข่าววาฬสีน้ําเงิน

นอกจากนี้ GPT-4o ยังมีความก้าวหน้าอย่างมากในด้านความสอดคล้องของภาพ แม้จะปรับบทสนทนาหลายรอบ แต่ภาพที่ได้ก็ยังคงสอดคล้องกันในแง่ของสไตล์ ลักษณะที่ปรากฏของวัตถุ และอื่นๆ สิ่งนี้สามารถปรับปรุงความเป็นไปได้ของกราฟิก AI ในการออกแบบเกม การผลิตโฆษณา และสาขาอื่นๆ ได้อย่างมาก

แหล่งที่มาของภาพ: ข่าววาฬสีน้ําเงิน

จากข้อมูลของ OpenAI โมเดลภาพ AI Dall-E ที่เปิดตัวก่อนหน้านี้เป็นโมเดลการแพร่กระจาย ในขณะที่การสร้างภาพ 4o เป็นโมเดลการถดถอยอัตโนมัติ ระบบ 0o สร้างภาพทีละขั้นตอนจากซ้ายไปขวาและบนลงล่างคล้ายกับวิธีการเขียนข้อความแทนที่จะสร้างภาพทั้งหมดในคราวเดียวเช่นในกรณีของแบบจําลองการแพร่กระจาย

Ke Guolin หัวหน้าฝ่ายอัลกอริทึม AI ของ Shenshi Technology สตาร์ทอัพ AI วิเคราะห์บนโซเชียลมีเดียว่าสิ่งนี้สะท้อนให้เห็นถึงข้อดีของการใช้โมเดลถดถอยอัตโนมัติเพื่อรวมโครงร่างหลายรูปแบบเข้าด้วยกัน Dall-E จัดตําแหน่งรูปภาพให้สอดคล้องกับภาษาในพื้นที่ที่ซ่อนอยู่ และเมื่อสร้างรูปภาพ โมเดลจะแปลงระหว่างข้อความและรูปภาพอย่างต่อเนื่อง อย่างไรก็ตามกระบวนการนี้สูญเสียอย่างหลีกเลี่ยงไม่ได้ความสามารถในการชี้นําของภาพนั้นอ่อนแอมากและการสุ่มของรุ่นมีขนาดใหญ่และยากที่จะควบคุมอย่างละเอียด

Ke Guolin กล่าวว่าโมเดล Omni เช่น GPT-4o สามารถรวมรูปภาพ ข้อความ และรูปแบบอื่นๆ ในบทสนทนาให้เป็นลําดับโทเค็นมิติเดียว ซึ่งสามารถป้อนไปยังโมเดลได้โดยตรงในลักษณะถดถอยอัตโนมัติ สิ่งนี้ช่วยลดความจําเป็นในการพึ่งพาข้อความเป็นสะพานเชื่อมและหลีกเลี่ยงการสูญเสียข้อมูลไปครึ่งทาง ยิ่งไปกว่านั้นโมเดลยังเก็บข้อมูลภาพที่สมบูรณ์ไว้ทุกครั้งดังนั้นจึงสามารถปรับเปลี่ยนเนื้อหาภาพได้อย่างละเอียดและควบคุมได้ตามคําแนะนําของผู้ใช้

สําหรับผู้ใช้จํานวนมากขึ้นความประหลาดใจที่เกิดจากการอัปเดต GPT-4o นี้ยังสะท้อนให้เห็นในความนุ่มนวลของกระบวนการใช้งานซึ่งทําให้ความเป็นไปได้ในการ "สร้างภาพในประโยคเดียว" และ "เปลี่ยนภาพด้วยปากของคุณ" พุ่งสูงขึ้น ในทางตรงกันข้าม Stable Diffusion ซึ่งเป็นเครื่องมือสร้างภาพ AI กระแสหลักต้องการให้ผู้บริโภคมีความสามารถระดับมืออาชีพสูงและจําเป็นต้องเชี่ยวชาญการตั้งค่าของปลั๊กอินและพารามิเตอร์ต่างๆ ในทางกลับกัน Midjourney นั้นอ่อนแอกว่าในแง่ของความสามารถในการควบคุมและความสม่ําเสมอ และไม่เหมาะสําหรับงานที่ต้องการความสม่ําเสมอในระดับสูง

นักออกแบบ Zhang Xiaool กล่าวอย่างตรงไปตรงมาบนแพลตฟอร์มโซเชียล X ว่าความสามารถด้านภาพของ GPT-4o พลิกโฉมผลิตภัณฑ์ของสตาร์ทอัพก่อนหน้านี้โดยตรง "อัลกอริทึม เวิร์กโฟลว์ และโมเดลที่พวกเขาใช้เวลา กําลังคน และเงินลงทุนอย่างมากในการปรับแต่งถูกแทนที่โดยตรงด้วยการอัปเดตโมเดลขนาดใหญ่"

GPT-4o模型於去年5月正式推出，主打的就是具備能夠處理文本、音訊和圖像的多模態能力，與當前備受關注的o1等推理模型有所不同。但在近一年的時間內，4o都未向使用者放開其圖像生成功能。

3月28日，GPT-4o再迎部分更新，包括更擅長遵循詳細的指令、提高了解決複雜技術和編碼問題的能力。Sam Altman預告稱，“更多更新即將到來。”