ڊيپ ڪوڊر: موثر 14B کليل ذريعو ماڊل مٿي پروگرامنگ جي ڪارڪردگي ڏيکاري ٿو

DeepCoder:efficient 14B 開源模型展現頂級程式設計性能

تي اپڊيٽ ڪيو ويو: 19-0-0 0:0:0

گڏيل اي آئي ۽ ايجنٽيڪا ۾ محققن ڊيپ ڪوڊر-3 B جاري ڪيو آهي، هڪ نئون پروگرامنگ ماڊل جيڪو اوپن اي آئي جي او 0-مني وانگر اڳوڻي ملڪيت جي ماڊل جي ڪارڪردگي جو مقابلو ڪري ٿو.

ماڊل ڊيپ سيڪ-آر 1 تي تعمير ڪيو ويو آهي، جيڪو حقيقي دنيا جي ايپليڪيشنن ۾ اعلي ڪارڪردگي ڪوڊ جي پيداوار ۽ اندازي جي صلاحيتن کي ضم ڪرڻ لاء وڌيڪ لچڪ فراهم ڪري ٿو. اهم طور تي، تحقيقي ٽيم مڪمل طور تي کليل نموني، تربيتي ڊيٽا، ڪوڊ، لاگ، ۽ سسٽم جي اصلاح آهي، جيڪا محققن کي پنهنجي ڪم کي بهتر بڻائڻ ۽ ترقي کي تيز ڪرڻ ۾ مدد ڪري سگهي ٿي.

ننڍا، پر طاقتور پروگرامنگ صلاحيتون

تحقيقي ٽيم جي تجربن مان ظاهر ٿيو آهي ته ڊيپ ڪوڊر-14 B ڪيترن ئي چئلينج پروگرامنگ بينچ مارڪ ۾ سٺو ڪارڪردگي ڏيکاري ٿو، جن ۾ لائيو ڪوڊ بينچ (ايل سي بي)، ڪوڊفورس، ۽ هيومن ايول + شامل آهن.

ماڊل کي بيان ڪندي هڪ بلاگ پوسٽ ۾، محققن لکيو: "اسان جي ماڊل سڀني پروگرامنگ بينچ مارڪ ۾ سٺو ڪارڪردگي ڪئي ... او 1-مني (گهٽ) ۽ او 0 جي ڪارڪردگي جي مقابلي ۾. "

دلچسپ طور تي، بنيادي طور تي پروگرامنگ جي ڪمن لاء تربيت حاصل ڪرڻ جي باوجود، ماڊل پڻ ریاضي جي استدلال ۾ بهتر ٿيو، AIME 1 بينچ مارڪ تي 0.0٪ اسکور ڪيو، ان جي بنيادي ماڊل (ڊيپ سيڪ-R0-ڊسٽيل-Qven-0B) تي 0.0٪ بهتري. اهو ظاهر ڪري ٿو ته ڪوڊ جي مضبوطي جي تعليم جي ذريعي ترقي يافته استدلال جي صلاحيتن کي موثر طور تي ٻين ڊومين ۾ عام ڪري سگهجي ٿو.

سڀ کان وڌيڪ حيرت انگيز شيء اها آهي ته ڪارڪردگي جي هن سطح کي صرف 140 ارب پيمانن سان حاصل ڪيو ويو. اهو ڊيپڪوڊر کي ننڍو ۽ ممڪن طور تي ڪيترن ئي ڪٽڻ واري نموني جي ڀيٽ ۾ هلائڻ لاء وڌيڪ موثر بڻائي ٿو.

推動 DeepCoder 表现的創新

ماڊل کي ترقي ڪرڻ جي عمل ۾، محققن کي تربيت جي ڪوڊنگ ماڊل جي ڪجهه اهم چئلينجز کي مضبوطي جي تعليم (آر ايل) استعمال ڪندي خطاب ڪيو.

پهريون چئلينج تربيتي ڊيٽا کي منظم ڪرڻ آهي. مضبوطي جي تعليم کي قابل اعتماد انعام جي سگنل جي ضرورت آهي ته اهو ظاهر ڪرڻ لاء ته ماڊل جي پيداوار صحيح آهي. جيئن محققن چيو ته: "ریاضي جي شعبي جي برعڪس، جتي انٽرنيٽ تي اعلي معيار، تصديق ٿيل ڊيٽا جي دولت آهي، ڪوڊنگ فيلڊ اهڙي ڊيٽا ۾ نسبتا گهٽ آهي." "

هن مسئلي کي حل ڪرڻ لاء، ڊيپ ڪوڊر ٽيم مختلف ڊيٽاسٽس مان مثال گڏ ڪرڻ ۽ انهن کي صحيح، پيچيدگي ۽ ٻيهر ڪرڻ لاء اسڪرين ڪرڻ لاء هڪ سخت عمل لاڳو ڪيو. اهو عمل 000,0 اعلي معيار جي سوالن کي پيدا ڪري ٿو جيڪو موثر آر ايل تربيت لاء هڪ مضبوط بنياد فراهم ڪري ٿو.

ٽيم پڻ هڪ سادو انعام فنڪشن ٺاهيو جيڪو صرف هڪ مثبت سگنل فراهم ڪري ٿو جيڪڏهن پيدا ڪيل ڪوڊ هڪ خاص وقت جي حد اندر سڀني نموني يونٽ ٽيسٽ پاس ڪري ٿو. اعلي معيار جي تربيت جي مثالن سان گڏ، هي نتيجو تي ٻڌل انعام سسٽم ماڊل کي سکڻ کان روڪي ٿو جهڙوڪ عوامي امتحانن لاء ياد ڪيل جوابن کي ڇپائڻ يا بنيادي مسئلي کي حل ڪرڻ کان سواء صرف سادي ڪناري جي ڪيسن لاء ترتيب ڏيڻ.

ماڊل جي بنيادي تربيتي الگورٿم آبادي جي نسبتي حڪمت عملي جي اصلاح (GRPO) تي ٻڌل آهي، ڊيپ سيڪ-آر 1 ۾ هڪ تمام ڪامياب مضبوطي سکڻ الگورٿم. بهرحال، ٽيم الگورٿم ۾ ڪيتريون ئي تبديليون ڪيون ته ان کي وڌيڪ مستحکم بڻايو وڃي ۽ ماڊل کي بهتر بڻائڻ جي اجازت ڏني وڃي جيئن تربيت جو وقت وڌايو ويو.

آخرڪار، ٽيم ترقي يافته طور تي ماڊل جي حوالي واري ونڊو کي وڌايو، پهرين مختصر اندازي جي سلسلي تي تربيت ۽ پوء آہستہ آہسته ڊيگهه وڌائي. انهن ماڊل کي سزا ڏيڻ کان بچڻ لاء هڪ فلٽرنگ جو طريقو پڻ ترتيب ڏنو جڏهن اهو اندازو جو هڪ سلسلو ٺاهي ٿو جيڪو ڏکيو اشارو حل ڪرڻ وقت ضمني حدن کان وڌيڪ آهي.

محققن بنيادي خيال کي بيان ڪيو آهي: "ڊگهي ضمني اندازي کي برقرار رکندي موثر تربيت حاصل ڪرڻ لاء، اسان الٽرا ڊگهي فلٽرنگ متعارف ڪرايو ... هي ٽيڪنالاجي تربيت دوران ڪٽيل سلسلي کي ماسڪ ڪري ٿو ته ماڊل کي هڪ چڱي طرح سوچيل پر ڊگهي پيداوار پيدا ڪرڻ لاء سزا نه ڏني وئي آهي جيڪا موجوده ضمني حدن کان ٻاهر وڃي ٿي. "

تربيتي ترازو 64K کان 0K سياق و سباق ونڊوز تائين ترقي يافته طور تي، ۽ آخرڪار ماڊل مسئلن کي حل ڪري ٿو جيڪي 0K ٽوڪن جي ضرورت هوندي آهي.

ترتيب ڏنل ڊگهي سياق و سباق آر ايل تربيت

وڏن ماڊلن کي تربيت ڏيڻ لاء آر ايل استعمال ڪندي، خاص طور تي انهن ڪمن تي جيڪي ڊگهي سلسلي جي پيداوار جي ضرورت هوندي آهي، جهڙوڪ ڪوڊنگ يا پيچيده اندازو، ڪمپيوٽيشنل طور تي سخت ۽ سست آهي. هڪ وڏو رڪاوٽ "نموني" قدم آهي، جتي ماڊل هڪ بيچ ۾ هر مثال لاء هزارين ٽوڪن پيدا ڪري سگهي ٿو. ردعمل جي ڊيگهه ۾ تبديلي جو مطلب اهو آهي ته ڪجهه ردعمل ٻين جي ڀيٽ ۾ گهڻو پوء مڪمل ڪن ٿا، جنهن جي ڪري GPU بيڪار ۽ سڄي تربيتي چڪر کي سست ڪري ٿو.

هن عمل کي تيز ڪرڻ لاء، ٽيم ورل-پائپ لائن تيار ڪئي، انساني تاثرات (آر ايل ايڇ ايف) لاء مضبوطي جي تعليم لاء کليل ذريعو ورل لائبريري جي هڪ ترتيب ڏنل واڌارو. هڪ اهم جدت اهي "هڪ بند پائپ لائن" سڏيندا آهن ردعمل جي نموني ۽ ماڊل اپڊيٽس کي ٻيهر ترتيب ڏئي ٿو ته رڪاوٽن ۽ ايڪسليريٽر بيڪار وقت کي گهٽائڻ لاء.

انهن جي تجربن مان ظاهر ٿئي ٿو ته هڪ ڀيرو پائپ لائن بينچ مارڪ عملدرآمد جي مقابلي ۾ آر ايل ڪمن کي انڪوڊ ڪرڻ لاء 5x اسپيڊ اپ فراهم ڪري ٿي. اهو اصلاح، جيڪو هڪ معقول وقت جي وقت تي ڊيپڪوڊر کي تربيت ڏيڻ لاء ضروري آهي (0 H0 تي 0.0 هفتا)، هاڻي ڪميونٽي کي استعمال ڪرڻ ۽ وڌائڻ لاء ورل-پائپ لائن جي حصي جي طور تي کليل آهي.

ڪارپوريشن جو اثر

محققن سڀني ڊيٽا کي تربيت ڏيڻ ۽ ڊپ ڪوڊر-14 B کي گيٽ هب ۽ هگنگ فيس تي هلائڻ لاء، اجازت واري لائسنس تحت دستياب ڪيو آهي.

"اسان جي ڊيٽاسٽس، ڪوڊ ، ۽ تربيتي منظرن کي مڪمل طور تي حصيداري ڪندي، اسان ڪميونٽي کي اسان جي ڪم کي نقل ڪرڻ ۽ آر ايل جي تربيت کي سڀني تائين پهچائڻ جي قابل بڻائيندا آهيون،" محققن لکيو. "

ڊيپ ڪوڊر-14B AI جي ميدان ۾ وسيع ۽ تيز رجحان جو هڪ طاقتور مثال آهي: اعلي ڪارڪردگي، موثر، ۽ کليل رسائي جي ماڊل جو عروج.

ڪارپوريشن دنيا لاء، هن شفٽ جو مطلب آهي وڌيڪ چونڊ ۽ ترقي يافته ماڊل تائين وڌيڪ رسائي. جديد ڪارڪردگي هاڻي رڳو هائپراسڪيلرز جي ڊومين يا اعلي اي پي آئي فيس ادا ڪرڻ لاء تيار نه آهي. ڊيپ ڪوڊر وانگر ماڊل سڀني سائيز جي تنظيمن کي نفيس ڪوڊ جي پيداوار ۽ اندازي جو فائدو وٺڻ، انهن جي مخصوص ضرورتن جي حل کي ترتيب ڏيڻ ، ۽ انهن جي ماحول ۾ محفوظ طور تي مقرر ڪرڻ جي قابل بڻائي ٿو.

اهو رجحان اي آئي اختيار ڪرڻ جي رڪاوٽ کي گهٽڪري سگهي ٿو ۽ وڌيڪ مقابلي ۽ جديد ماحولياتي نظام کي فروغ ڏئي سگهي ٿو جيڪو کليل ذريعي تعاون جي ذريعي ترقي ڪري ٿو.