أطلقت OpenAI وظيفة إنشاء الصور الأصلية GPT-4o ، ويذهل التأثير المستخدمين

OpenAI تطلق توليد الصور الأصلية GPT-4o لجعل المستخدمين مندهشين

إلى أعلى العناوين الرئيسية جي بي تي نموذج o1 ميني الجوزاء جوجل نماذج اللغة مايكروسوفت إيلون ماسك التفكير الأخلاقي التمان عاشق في الغيوم

تحديث يوم: 11-0-0 0:0:0

بمناسبة الذكرى السنوية القادمة لإصدار OpenAI لأول نموذج متعدد الوسائط "شامل" ، GPT-4o ، في 0/0 ، يجلب هذا النموذج الكلاسيكي مفاجآت جديدة.

اليوم ، فتحت OpenAI أخيرا إمكانات إنشاء الصور متعددة الوسائط الأصلية ل GPT-4o للمستخدمين المجانيين من ChatGPT. وقالت الشركة إن الميزة ستكون متاحة قريبا لمستخدمي المؤسسات والتعليم ، وستكون متاحة من خلال واجهات برمجة التطبيقات.

على عكس نموذج صورة الذكاء الاصطناعي التوليدي السابق ل ChatGPT (DALL-E 3 من OpenAI ، وهو نموذج محول انتشار كلاسيكي يعيد بناء الصور من مطالبات النص عن طريق إزالة ضوضاء البكسل) ، يعد منشئ الصور الجديد هذا جزءا من نفس النموذج الذي يخرج النص والتعليمات البرمجية ، حيث يقوم OpenAI بتدريب النموذج بأكمله على فهم جميع أشكال الوسائط هذه في نفس الوقت.

قام رئيس OpenAI جريج بروكمان بمعاينة هذه الميزة الأصلية ل GPT-2o مرة أخرى في 0/0 ، ولكن لأسباب لم يتم الإعلان عنها بعد ، احتفظت بها الشركة حتى الآن - وهذا بعد أن أصدر Google الذكاء الاصطناعي Studio ميزة النموذج التجريبي Gemini 0 Flash التي يعتبرها العديد من مستخدمي الذكاء الاصطناعي مشابهة.

وقد أدى ذلك إلى إنشاء منشئ صور عالي الجودة يمكنه إنتاج صور أكثر واقعية ونصا مضمنا أكثر دقة ، مما أثار إعجاب المستخدمين بالفعل - حيث وصف البعض الجودة بأنها "مجنونة".

تجدر الإشارة أيضا إلى أن OpenAI لم توضح بعد البيانات التي تم تدريب قدرات إنشاء الصور في GPT-4o عليها - نظرا لتاريخ الشركة وموفري النماذج الآخرين ، فمن المحتمل أن العديد من الأعمال الفنية التي تم كشطها من الويب ، والتي قد يكون بعضها محميا بحقوق الطبع والنشر ، من المرجح أن تثير غضب الفنانين الذين يقفون وراء هذه الأعمال.

جلب إنشاء الصور إلى ChatGPT و Sora

تعمل OpenAI على إنشاء الصور كميزة أساسية لنماذج الذكاء الاصطناعي الخاصة بها. باستخدام GPT-4o ، يمكن للمستخدمين الآن إنشاء صور مباشرة في ChatGPT ، وتحسينها من خلال المحادثات ، وضبط التفاصيل في الوقت الفعلي.

تم دمج النموذج أيضا في منصة توليد الفيديو الخاصة ب OpenAI ، Sora ، لتوسيع القدرات متعددة الوسائط.

في إعلان النظام الأساسي X ، أكدت OpenAI أن إنشاء صور GPT-4o مصمم من أجل: - عرض النص بدقة في الصور ، مع القدرة على إنشاء الشعارات والقوائم والدعوات والرسوم البيانية - التنفيذ الدقيق للإشارات المعقدة التي تحافظ على الدقة العالية حتى في التراكيب التفصيلية - البناء على الصور والنصوص السابقة ، مما يضمن الاتساق البصري عبر تفاعلات متعددة - يدعم مجموعة متنوعة من الأساليب الفنية ، من الرسوم التوضيحية الواقعية إلى الرسوم التوضيحية المنمقة

يمكن للمستخدمين وصف صورة في ChatGPT ، وتحديد تفاصيل مثل نسبة العرض إلى الارتفاع أو نظام الألوان (الرمز السداسي العشري) أو الشفافية ، وسيقوم GPT-4o بإنشائها في غضون دقيقة.

كما كتبت مستشارة الذكاء الاصطناعي المستقلة Allie K. Miller على X ، فهذه "قفزة عملاقة إلى الأمام في إنشاء النصوص" و "أفضل" نموذج لتوليد صور الذكاء الاصطناعي الذي رأته على الإطلاق.

الميزات الرئيسية وحالات الاستخدام

تم تصميم GPT-4o ليس فقط مع التركيز على المرئيات ، ولكنه يضمن أيضا التطبيق العملي. تشمل التطبيقات الرئيسية ما يلي: - التصميم والعلامة التجارية - إنشاء الشعارات والملصقات والإعلانات بتخطيطات نصية دقيقة - التعليم والتصور - إنشاء مخططات علمية ورسوم بيانية وصور تاريخية للتعلم - تطوير الألعاب - الحفاظ على اتساق الأدوار عبر تكرارات التصميم المختلفة - التسويق وإنشاء المحتوى - إنشاء مواد وسائل التواصل الاجتماعي ودعوات الأحداث والرسوم التوضيحية الرقمية بناء على احتياجات العلامة التجارية

GPT-4o 如何改進 DALL-E 的生成圖像

وفقا للمنشور الرسمي ل OpenAI على X ، يحتوي GPT-4o على التحسينات التالية مقارنة بالنموذج السابق:

تكامل أفضل للنص: - على عكس نماذج الذكاء الاصطناعي التي كانت تواجه صعوبات في سهولة القراءة وتخطيط النص ، يمكن ل GPT-4o الآن تضمين النص بدقة في الصور

الفهم السياقي المحسن: - يستفيد GPT-4o من سجل الدردشة ، مما يسمح للمستخدمين بتنقيح الصور بشكل تفاعلي والحفاظ على التماسك عبر أجيال متعددة

تحسين ربط الكائنات المتعددة: - بينما واجه النموذج السابق صعوبات في تحديد موقع العديد من الكائنات المختلفة بشكل صحيح في المشهد ، يمكن ل GPT-20o الآن التعامل مع كائنات 0-0 في نفس الوقت

تعديلات الأسلوب المتنوعة: - يمكن للنموذج إنشاء الصور أو تحويلها إلى مجموعة متنوعة من الأنماط ، من الرسومات المرسومة يدويا إلى الأنماط الواقعية عالية الدقة

القيود

على الرغم من التقدم ، لا يزال لدى GPT-4o بعض التحديات المعروفة:

مشكلات الاقتصاص: - يمكن أحيانا اقتصاص الصور كبيرة الحجم، مثل الملصقات، بإحكام شديد

دقة النصوص غير اللاتينية: - قد لا يتم عرض بعض الأحرف غير الإنجليزية بشكل صحيح

الحفاظ على التفاصيل للنص الصغير: - قد يفقد النص النصي الصغير أو التفصيل للغاية وضوحه

دقة التحرير: - قد يؤثر تعديل جزء معين من الصورة عن غير قصد على العناصر الأخرى

تعالج OpenAI هذه المشكلات من خلال التحسينات المستمرة للنموذج.

تدابير الأمان ووضع العلامات

كجزء من التزام OpenAI بتطوير الذكاء الاصطناعي المسؤول ، تحتوي جميع الصور التي تم إنشاؤها بواسطة GPT-2o على بيانات وصفية C0PA ، مما يسمح للمستخدمين بالتحقق من أصل الذكاء الاصطناعي الخاص بهم.

بالإضافة إلى ذلك ، أنشأت OpenAI أداة بحث داخلية للمساعدة في اكتشاف الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي.

يتم تطبيق ضمانات صارمة لحظر المحتوى الضار ومنع إساءة الاستخدام، مثل حظر إنشاء صور صريحة أو خادعة أو ضارة.

حرصت OpenAI أيضا على فرض قيود أكثر صرامة على الصور التي تحتوي على أشخاص حقيقيين.

وصف سام ألتمان ، الرئيس التنفيذي لشركة OpenAI ، الإطلاق بأنه "مستوى جديد من الحرية الإبداعية" ، مؤكدا أن المستخدمين سيكونون قادرين على إنشاء مجموعة واسعة من المحتوى المرئي ، بينما ستراقب OpenAI نهجها ويصقلها بناء على حالات الاستخدام في العالم الحقيقي.

نظرا لأن الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي أصبحت أكثر دقة وسهولة في الاستخدام ، يمثل GPT-4o خطوة مهمة في تحويل تقنية إنشاء النص إلى صورة إلى أداة اتصال وإبداع وإنتاجية سائدة.