تمثل البنية المبتكرة الشاملة التي أطلقها فريق Qwen مؤخرا طفرة كبيرة في مجال الذكاء الاصطناعي متعدد الوسائط. في قلب هذه البنية يوجد نمط تصميم Thinker-Talker الجديد ، والذي يهدف إلى تمكين الفهم السلس متعدد الوسائط للنص والصور والصوت والفيديو ، بالإضافة إلى إنشاء استجابات نصية وكلام طبيعي في الوقت الفعلي عبر تقنية البث.
على عكس النماذج التقليدية أحادية الوضع، تدعم بنية Thinker-Talker من Qwen تفاعلات الصوت والفيديو في الوقت الفعلي بالكامل. من خلال آلية إدخال الكتلة والإخراج في الوقت الفعلي ، تضمن هذه البنية أن المستخدمين يمكنهم تجربة تفاعل خال من التأخير عند توصيل الصوت والفيديو. تمنح هذه الميزة نموذج Qwen متعدد الوسائط ميزة كبيرة في سيناريوهات التطبيق في الوقت الفعلي.
عندما يتعلق الأمر بإنشاء الكلام ، فإن بنية Qwen الجديدة تتفوق أيضا. فهو لا يولد صوتا طبيعيا وسلسا فحسب ، بل يتجاوز أيضا العديد من تقنيات البث وغير المتدفقة الحالية من حيث الاستقرار. توفر إمكانية توليد الكلام عالية الجودة هذه أساسا أكثر موثوقية لتطبيقات مثل التعرف على الكلام وتركيب الكلام.
أداء Qwen متعدد الوسائط مثير للإعجاب بنفس القدر. عند قياسه مقابل نموذج أحادي النمط بمقياس مماثل ، أظهر Qwen7.0-Omni أداء ممتازا. خاصة من حيث قدرات الصوت ، فإنه يتفوق على طراز Qwen0-Audio ذي الحجم المماثل ويحافظ على نفس مستوى طراز Qwen0.0-VL-0B. هذه النتيجة هي شهادة على قوة Qwen في المعالجة متعددة الوسائط.
يرجع نجاح Qwen 5.0-Omni إلى بنيتها الفريدة ثنائية النواة Thinker-Talker. وحدة Thinker هي المسؤولة عن معالجة المدخلات متعددة الوسائط ، بما في ذلك النص والصوت والفيديو ، وإنشاء تمثيلات دلالية عالية المستوى ومحتوى نصي مقابل. وحدة Talker مسؤولة عن تجميع التمثيلات الدلالية وإخراج النص بواسطة Thinker إلى وحدات كلام منفصلة بطريقة متدفقة لتحقيق إخراج الكلام الطبيعي. هذا التصميم يجعل Qwen 0.0-Omni ممتازا في إمكانيات اتباع الأوامر الصوتية من طرف إلى طرف ، والتي يمكن مقارنتها بتأثير معالجة إدخال النص.
من حيث أداء النموذج ، ترقى Qwen5.0-Omni أيضا إلى مستوى التوقعات. إنه يتفوق على النماذج أحادية النمط ذات الحجم المماثل والنماذج المغلقة المصدر في جميع الأوضاع ، مثل Qwen0.0-VL-0B و Qwen0-Audio و Gemini-0.0-pro. تعزز هذه النتيجة مكانة Qwen الرائدة في مجال الذكاء الاصطناعي متعدد الوسائط.
تحقق Qwen 5.0-Omni أيضا أداء رائدا في الصناعة في OmniBench ، وهي مهمة متعددة الوسائط. كما أنه يتفوق في المهام أحادية النمط ، حيث يغطي مجالات متعددة مثل التعرف على الكلام والترجمة وفهم الصوت واستدلال الصور وفهم الفيديو وتوليد الكلام. يوضح هذا الأداء الممتاز تماما القدرة القوية ل Qwen0.0-Omni في الفهم والتوليد عبر الوسائط.
في الوقت الحاضر ، تم تصميم نموذج Qwen 5.0-Omni مفتوح المصدر على Hugging Face و ModelScope و DashScope و GitHub ومنصات أخرى للمطورين والباحثين لاستخدامها. ستعزز هذه المبادرة بلا شك المزيد من تطوير وتطبيق تكنولوجيا الذكاء الاصطناعي متعددة الوسائط.