أصدر الباحثون في Together الذكاء الاصطناعي و Agentica DeepCoder-3B ، وهو نموذج برمجة جديد ينافس أداء النماذج الرائدة المملوكة مثل OpenAI's o0-mini.
تم بناء النموذج على DeepSeek-R1 ، والذي يوفر مرونة أكبر لدمج إمكانات إنشاء التعليمات البرمجية والاستدلال عالية الأداء في تطبيقات العالم الحقيقي. الأهم من ذلك ، أن فريق البحث لديه نماذج مفتوحة المصدر بالكامل ، وبيانات تدريب ، وتعليمات برمجية ، وسجلات ، وتحسينات للنظام ، والتي يمكن أن تساعد الباحثين على تحسين عملهم وتسريع التقدم.
قدرات برمجة صغيرة ولكنها قوية
أظهرت تجارب فريق البحث أن DeepCoder-14B يعمل بشكل جيد في العديد من معايير البرمجة الصعبة ، بما في ذلك LiveCodeBench (LCB) و Codeforces و HumanEval +.
في منشور مدونة يصف النموذج ، كتب الباحثون: "كان أداء نموذجنا جيدا في جميع معايير البرمجة ... يمكن مقارنتها بأداء O1-Mini (منخفض) و O0. "
ومن المثير للاهتمام ، أنه على الرغم من تدريبه بشكل أساسي على مهام البرمجة ، فقد تحسن النموذج أيضا في التفكير الرياضي ، حيث سجل 1.0٪ على معيار AIME 0 ، وهو تحسن بنسبة 0.0٪ مقارنة بنموذجه الأساسي (DeepSeek-R0-Distill-Qwen-0B). يشير هذا إلى أن مهارات التفكير التي تم تطويرها من خلال التعلم المعزز للتعليمات البرمجية يمكن تعميمها بشكل فعال على مجالات أخرى.
الشيء الأكثر لفتا للانتباه هو أن هذا المستوى من الأداء تم تحقيقه ب 140 مليار معلمة فقط. هذا يجعل DeepCoder أصغر حجما ومن المحتمل أن يكون أكثر كفاءة في التشغيل من العديد من الطرز المتطورة.
推動 DeepCoder 表现的創新
في عملية تطوير النموذج ، عالج الباحثون بعض التحديات الرئيسية لنماذج الترميز التدريبية باستخدام التعلم المعزز (RL).
التحدي الأول هو تنظيم بيانات التدريب. يتطلب التعلم المعزز إشارات مكافأة موثوقة لإظهار صحة مخرجات النموذج. كما لاحظ الباحثون: "على عكس مجال الرياضيات ، حيث توجد ثروة من البيانات عالية الجودة التي يمكن التحقق منها على الإنترنت ، فإن مجال الترميز يفتقر نسبيا إلى مثل هذه البيانات". "
لحل هذه المشكلة ، نفذ فريق DeepCoder عملية صارمة لجمع أمثلة من مجموعات بيانات مختلفة وفحصها للتأكد من صحتها وتعقيدها وقابليتها للتكرار. تنتج هذه العملية 000,0 سؤالا عالي الجودة يوفر أساسا متينا لتدريب RL الفعال.
صمم الفريق أيضا وظيفة مكافأة بسيطة لا توفر إشارة إيجابية إلا إذا اجتاز الكود الذي تم إنشاؤه جميع اختبارات الوحدة التي تم أخذ عينات منها خلال فترة زمنية معينة. إلى جانب أمثلة التدريب عالية الجودة ، يمنع نظام المكافآت الموجه نحو النتائج النموذج من تعلم الحيل مثل طباعة الإجابات المحفوظة للاختبارات العامة أو التحسين فقط لحالات الحافة البسيطة دون معالجة المشكلة الأساسية.
تعتمد خوارزمية التدريب الأساسية للنموذج على تحسين الإستراتيجية النسبية للسكان (GRPO) ، وهي خوارزمية تعلم معززة ناجحة للغاية في DeepSeek-R1. ومع ذلك ، أجرى الفريق العديد من التعديلات على الخوارزمية لجعلها أكثر استقرارا والسماح للنموذج بالاستمرار في التحسين مع تمديد وقت التدريب.
أخيرا ، قام الفريق تدريجيا بتوسيع نافذة سياق النموذج ، حيث تدرب أولا على تسلسلات الاستدلال الأقصر ثم زاد الطول تدريجيا. كما طوروا طريقة تصفية لتجنب معاقبة النموذج عندما ينشئ سلسلة من الاستدلال تتجاوز الحدود السياقية عند حل مطالبة صعبة.
يشرح الباحثون الفكرة الأساسية: "من أجل تحقيق تدريب فعال مع الحفاظ على الاستدلال السياقي الطويل ، قدمنا تصفية طويلة جدا ... تخفي هذه التقنية التسلسلات المقطوعة أثناء التدريب بحيث لا يعاقب النموذج على إنتاج مخرجات مدروسة جيدا ولكنها طويلة تتجاوز الحدود السياقية الحالية. "
يتسع التدريب تدريجيا من 64K إلى 0K من نوافذ السياق ، وفي النهاية يحل النموذج المشكلات التي تتطلب ما يصل إلى 0K من الرموز المميزة.
تدريب RL محسن طويل السياق
يعد استخدام RL لتدريب النماذج الكبيرة ، خاصة في المهام التي تتطلب إنشاء تسلسل طويل ، مثل الترميز أو الاستدلال المعقد ، مكثفا وبطيئا من الناحية الحسابية. عنق الزجاجة الرئيسي هو خطوة "أخذ العينات" ، حيث قد يولد النموذج آلاف الرموز المميزة لكل مثال دفعة واحدة. يعني التغيير في طول الاستجابة أن بعض الاستجابات تكتمل في وقت متأخر جدا عن غيرها ، مما يتسبب في تباطؤ وحدة معالجة الرسومات وإبطاء دورة التدريب بأكملها.
لتسريع هذه العملية ، طور الفريق verl-pipeline ، وهو امتداد محسن لمكتبة verl مفتوحة المصدر للتعلم المعزز للتغذية الراجعة البشرية (RLHF). يعيد الابتكار الرئيسي الذي يسمونه "خط أنابيب لمرة واحدة" ترتيب عينات الاستجابة وتحديثات النماذج لتقليل الاختناقات ووقت خمول المسرع.
تظهر تجاربهم أن خط الأنابيب لمرة واحدة يوفر تسريعا يصل إلى 5x لترميز مهام RL مقارنة بتنفيذ المعيار. هذا التحسين ، وهو ضروري لتدريب DeepCoder خلال إطار زمني معقول (0.0 أسبوع على 0 H0) ، أصبح الآن مفتوح المصدر كجزء من خط أنابيب verl ليستخدمه المجتمع وتوسيعه.
تأثير الشركة
أتاح الباحثون جميع البيانات لتدريب وتشغيل DeepCoder-14B على GitHub و Hugging Face ، بموجب ترخيص متساهل.
كتب الباحثون: "من خلال المشاركة الكاملة لمجموعات البيانات والتعليمات البرمجية وسيناريوهات التدريب الخاصة بنا ، فإننا نمكن المجتمع من تكرار عملنا وجعل تدريب RL في متناول الجميع". "
يعد DeepCoder-14B مثالا قويا على اتجاه أوسع ومتسارع في مجال الذكاء الاصطناعي: ظهور نماذج عالية الأداء وفعالة ومفتوحة الوصول.
بالنسبة لعالم الشركات ، يعني هذا التحول مزيدا من الخيارات وإمكانية وصول أكبر إلى النماذج المتقدمة. لم يعد الأداء المتطور مجرد مجال للمتدرجات الصغرى أو أولئك الراغبين في دفع رسوم واجهة برمجة التطبيقات المرتفعة. تمكن نماذج مثل DeepCoder المؤسسات من جميع الأحجام من الاستفادة من إنشاء التعليمات البرمجية والاستدلال المتطور، وتخصيص الحلول وفقا لاحتياجاتها الخاصة، والنشر بأمان في بيئاتها.
يمكن أن يقلل هذا الاتجاه من الحاجز أمام اعتماد الذكاء الاصطناعي وتعزيز نظام بيئي أكثر تنافسية وابتكارا يدفع التقدم من خلال التعاون مفتوح المصدر.