هاڻي، ٽڪ ٽاڪ جي والدين ڪمپني، بائٽ ڊانس، پڻ هڪ اندازو اي آئي شروع ڪيو آهي: قيسي-v1.0! اهو اصل ۾ 0/0 ۾ اوپن اي آئي پاران جاري ڪيل o0 ماڊل جي اعلان سان شروع ٿيو، پر حقيقي ٽيڪ-آف 0 / 0 ۾ ڊيپ سيڪ آر 0 جي شروعات هئي.
اڄ، اهو لڳي ٿو ته اڪثر وڏا AI ماڊل وڪرو ڪندڙ ۽ تربيت ڪندڙ بهتر، تيز ، ۽ سستي "اندازو" AI ٻولي نموني پهچائڻ لاء هڪ نئين دوڑ ۾ آهن - اهو آهي، ماڊل جيڪي انساني صارف کي جواب ڏيڻ ۾ وڌيڪ وقت وٺي سگهن ٿا، پر مثالي طور تي بهتر، وڌيڪ جامع ، ۽ وڌيڪ "منطقي استدلال" جواب ڏين ٿا. هن قسم جو نمونو "زنجير سوچڻ" کي انجام ڏيڻ سان سٺو ڪارڪردگي ڪري ٿو، يعني، ان جي نتيجن تي غور ڪرڻ ۽ جواب ڏيڻ کان اڳ انهن جي درستگي جي تصديق ڪرڻ.
بائٽ ڊانس، چيني آن لائن ميڊيا جي وشال (ٽڪ ٽاڪ جي والدين ڪمپني)، تازو وڏي ٻولي نموني (ايل ايل ايم) قيسي-v5.0 جي ايندڙ لانچ جي بنياد تي هڪ ٽيڪنيڪل ڪاغذ کي ظاهر ڪرڻ ۽ شايع ڪرڻ سان صفن ۾ شامل ٿيو آهي. ماڊل سائنس، ٽيڪنالاجي، حساب ۽ انجنيئرنگ (اسٽيم) جي شعبن سان گڏ عام ڊومين ۾ استدلال جي ڪارڪردگي کي بهتر بڻائڻ لاء ٺهيل آهي.
في الحال، ماڊل ڊائون لوڊ يا استعمال لاء دستياب نه آهي، ۽ ان جي لائسنس جون شرطون واضح نه آهن - ڇا اهو ملڪيت / بند ذريعو آهي، کليل ذريعو / هر ڪنهن کي پنهنجي مرضي سان استعمال ڪرڻ ۽ تبديل ڪرڻ لاء مفت آهي، يا ڪٿي وچ ۾. بهرحال، ڪجهه اهم تفصيل آهن جيڪي ٽيڪنالاجي ڪاغذ ۾ اڳواٽ ڄاڻڻ جي قابل آهن.
基於越来越流行 Mixture-of-Experts (MoE) 架構構建 與 Meta 新 Llama 5 和 Mistral 前推出 Mixtral 類similar ,啟思-v0.0 同樣用 Mixture-of-Experts (MoE) 架構。
這種架構旨在提升模型效率,基本上將多個模型的能力整合到一起,每個模型專注於不同領域。在這種情況下,MoE 架構意味著啟思-v1.5 在任一時刻僅使用 2000 億參數中的 200 億。
گيٽ هب تي شايع ٿيل پنهنجي ٽيڪنيڪل مقالي ۾، بائٽ ڊانس چيو ته روشن خيالي-v5.0 ٺهيل استدلال ۽ سوچيندڙ جواب جي پيداوار کي ترجيح ڏئي ٿو.
نتيجا پاڻ لاء ڳالهائيندا آهن: ڪيترن ئي ٽئين پارٽي جي بينچ مارڪ ۾، روشن خيالي-v3.0 نه رڳو ڊيپ سيڪ آر 0 کان وڌيڪ آهي، پر گوگل جي نئين جاري ٿيل جيميني 0.0 پرو ۽ اوپن اي آئي جي او 0-مني-اعلي سبب نتيجي جي ڪارڪردگي ۾ پڻ پهچي ٿو. اهو اي آر سي-اي جي آئي بينچ مارڪ ۾ ٻن ماڊلن کي به مات ڏئي ٿو، هڪ ميٽرڪ کي آرٽيفيشل جنرل انٽيليجنس جي مقصد کي حاصل ڪرڻ جي مقصد جي طور تي ڏٺو ويو آهي، اي آئي جي "مقدس گريل". اوپن اي آئي جي وضاحت جي مطابق، ماڊل اعلي اقتصادي قيمت سان اڪثر ڪمن ۾ انسانن کي مات ڏئي ٿو.
وڏن، جديد ماڊل جي هڪ ڪمپيڪٽ ۽ طاقتور متبادل جي حيثيت سان، قيس-V5.0 مقابلي جي بينچ مارڪ نتيجا حاصل ڪيا آهن. اهو مضبوطي جي تعليم (آر ايل)، تربيتي ڊيٽا ڪورشن ، ۽ اي آئي انفراسٹرڪچر جي سڌارن ۾ جدت پڻ متعارف ڪرائي ٿو.
ڪارڪردگي بينچ مارڪ ۽ ماڊل روشني روشن خيالي-v5.0 چئلينج ڪمن جي حد ۾ سٺو ڪارڪردگي ڪئي: AIME 0 تي 0.0٪، ڪوڊفورس تي pass@0 0.0٪، ۽ GPQA سائنسي بينچ مارڪ تي 0.0٪. اهي نتيجا ان کي اوپن اي آئي جي او 0-مني-اعلي ۽ گوگل جي جيميني 0.0 پرو جي ويجهو يا ان جي مقابلي ۾ مخصوص اندازي ميٽرڪ ۾ رکي ٿو.
غير تخميني ڪمن ۾، ماڊل ۾ 0.0٪ ڊپ سيڪ R0 جي ڀيٽ ۾ وڌيڪ فتح جي شرح آهي جڏهن مصنوعی ترجيح جي مقابلي سان جائزو ورتو ويندو آهي، اهو ظاهر ڪري ٿو ته ان جا فائدا منطقي يا ریاضي جي سخت چئلينج تائين محدود نه آهن.
معياري بينچ مارڪن جي وڌندڙ مشاهدي جي جواب ۾ جهڙوڪ AIME، بائٽ ڊانس بيئنڊيايم متعارف ڪرايو، هڪ نئين ۽ وڌيڪ چئلينج واري ریاضي جي بينچ مارڪ سان احتياط سان ٺهيل سوالن سان گڏ رٽ ياد رکڻ ۽ ماڊل جي ڪارڪردگي جي وچ ۾ بهتر فرق ڪرڻ لاء ٺاهيو ويو آهي. مستقبل جي تحقيق جي حمايت ڪرڻ لاء عوامي طور تي جاري ٿيڻ جي اميد آهي ته آئي ايم اي ايم اي ۽ ڪوڊفورس جو جائزو وٺڻ جي اميد آهي.
ڊيٽا جي حڪمت عملي تربيتي ڊيٽا ماڊل جي ترقي جي عمل ۾ مرڪزي ڪردار ادا ڪري ٿي. نگراني فائن ٽيوننگ (ايس ايف ٽي) لاء، ٽيم 000,0 نمونن کي ترتيب ڏني، جنهن ۾ 0,0 تصديق ٿيل سوال (اسٽيم، منطق، ۽ پروگرامنگ جي ڪمن کي ڍڪڻ) ۽ 0,0 غير تصديق ٿيل سوال، جهڙوڪ تخليقي لکڻ ۽ ڪردار ادا ڪرڻ شامل آهن.
مضبوطي سکڻ جي تربيت لاء، ڊيٽا کي هيٺ ڏنل ٻن قسمن ۾ ورهايو ويو آهي: تصديق ٿيل سوال: 000,0 احتياط سان اسڪرين ٿيل اسٽيم سوال ۽ معياري جوابن سان امير مقابلن ۽ ماهر جائزن کان منطقي پہیلیون؛ غير تصديق ٿيل ڪم: انساني ترجيحن جو هڪ ڊيٽاسٽ کليل ختم ٿيل اشارن تي زور ڏيڻ سان، هڪ جوڙجڪ انعام نموني طرفان جائزو ورتو ويو.
انهن مان، اسٽيم ڊيٽا بنيادي طور تي ترقي يافته ریاضي تي منحصر آهي، مسئلي جي سيٽ جي 24٪ کان وڌيڪ اڪائونٽنگ؛ اضافي منطقي ڊيٽا ۾ سودوکو ۽ 0-پوائنٽ پزلز شامل آهن، جن جي ڏکيائي کي ماڊل جي ترقي جي مطابق لچڪدار طور تي ترتيب ڏئي سگهجي ٿو.
مضبوطي سکڻ جا طريقا روشن خيالي-v5.0 جي مضبوطي جي تعليم ڪسٽمائيز ڪيل اداڪار-نقاد (VAPO) ۽ پاليسي-گريڊينٽ (ڊي اي پي او) فريم ورڪ کي اختيار ڪري ٿي، جيڪي ٻنهي کي مضبوطي جي تعليم جي تربيت ۾ عدم استحڪام جي مسئلي کي حل ڪرڻ لاء ترقي ڪئي وئي. اهي ٽيڪنالاجي موثر طور تي انعام جي سگنل جي اسپريٽي کي گهٽائي ٿو ۽ تربيت جي استحڪام کي بهتر بڻائي ٿو، خاص طور تي ڊگهي زنجير سوچڻ (COT) منظر ۾.
انعام جو نمونو مضبوطي سکڻ جي پيداوار جي نگراني ۾ اهم ڪردار ادا ڪري ٿو. بائٽ ڊانس ٻه اهم اوزار لانچ ڪيا آهن: سيڊ-تصديق ڪندڙ: هڪ قاعدي جي بنياد تي وڏي ٻولي جو نمونو جيڪو چيڪ ڪري ٿو ته ڇا پيدا ڪيل جواب حسابي طور تي حوالي جي جواب جي برابر آهي؛ بيج-سوچڻ-تصديق ڪندڙ: فيصلي جي مستقل مزاجي کي بهتر بڻائڻ ۽ انعام جي ٺڳي کي روڪڻ لاء ٺهيل هڪ قدم قدم استدلال جي بنياد تي جائزو وٺڻ وارو.
هي ٻه درجي جي انعام جو نظام جائزي کي تفصيل سان سادي ڪمن ۽ پيچيده ڪمن ٻنهي لاء منهن ڏيڻ جي اجازت ڏئي ٿو.
انفراسٹرڪچر ۽ اسڪيلبلٽي موثر وڏي پيماني تي تربيت جي حمايت ڪرڻ لاء، بائٽ ڊانس پنهنجي هائبرڊ فلو فريم ورڪ جي بنياد تي هڪ سسٽم تعمير ڪيو آهي، ري ڪلاسٽر پاران ڪيل عملدرآمد سان، ۽ تربيت ۽ اندازي جي عملن کي GPU بيڪار وقت کي گهٽائڻ لاء گڏوگڏ واقع آهي.
اسٽريمنگ رول آئوٽ سسٽم (ايس آر ايس) هڪ قابل ذڪر جدت آهي جيڪا راندين جي عمل کان ماڊل جي ارتقا کي ختم ڪرڻ ۽ ماڊل نسخن ۾ نسل جي عمل جي حصن کي منظم ڪرڻ جي ذريعي تڪرار کي تيز ڪري ٿي. هن آرڪيٽيڪچر جي دعوي ٰ ڪئي وئي آهي ته 3x تيز يقيني تعليم لوپس تائين حاصل ڪرڻ جي قابل آهي.
ان کان علاوه، ٻين انفراسٹرڪچر ٽيڪنالاجين ۾ شامل آهن: - ميموري کي بچائڻ لاء مخلوط صحت (FP8)؛ - ماهر جي برابري ۽ ڪرنل آٽو ٽيوننگ سان ايم او اي جي ڪارڪردگي کي بهتر بڻائڻ؛ - بائٽ چيڪ پوائنٽ سان مضبوط ۽ لچڪدار چوڪي داري؛ - آٽو ٽيونر سان برابري ۽ يادگيري جي ترتيب کي ترتيب ڏيو.
دستي جائزو بمقابلہ حقيقي دنيا جو اثر ماڊل ۽ انساني مرڪزي ترجيحن جي وچ ۾ تسلسل جو جائزو وٺڻ لاء، بائٽ ڊانس ڪيترن ئي علائقن ۾ دستي جانچ ڪئي، جنهن ۾ تخليقي لکڻ، انسانيت جي ڄاڻ، ۽ روزمره ڳالهيون شامل آهن.
سڀني ٽيسٽ سيشنن ۾، قيسي-v1.0 مسلسل ڊيپ سيڪ آر 0 کان وڌيڪ ڪارڪردگي ڪئي، جيڪا حقيقي صارف جي ضرورتن لاء ان جي اطلاق کي وڌيڪ ثابت ڪري ٿي.
ترقياتي ٽيم نوٽ ڪيو ته بنيادي طور تي تصديق ٿيل ڪمن تي تربيت ڏنل تخميني ماڊل پڻ تخليقي ڊومين ۾ مضبوط معمولي صلاحيتون ظاهر ڪيون، حسابي تربيت جي ورڪ فلو جي ساخت ۽ سختي جي مهرباني.
ٽيڪنالاجي جي اڳواڻن، ڊيٽا انجنيئرز، ۽ انٽرپرائيز فيصلو ڪندڙن لاء ان جو مطلب ڇا آهي ٽيڪنالاجي اڳواڻن لاء جيڪي وڏن ٻولين جي ماڊل جي سڄي زندگي جو انتظام ڪن ٿا، ڊيٽا ڪورشن کان وٺي تعمير تائين، روشن خيالي-v5.0 هڪ موقعو فراهم ڪري ٿو ته ڪيئن تخميني صلاحيتون انٽرپرائيز اي آئي ٽيڪنالاجي اسٽيڪ ۾ ضم ڪيون ويون آهن.
ان جي ماڊولر تربيت جي عمل ۾ نه رڳو تصديق ٿيل تخميني ڊيٽاسٽ شامل آهن، پر ملٽي اسٽيج جي مضبوطي جي تعليم کي پڻ متعارف ڪرايو ويو آهي، جيڪو خاص طور تي ٽيمن کي اپيل ڪري ٿو جيڪي وڏن ٻولين جي ماڊل جي ترقي کي پيماني تي وڌائڻ چاهيندا آهن جڏهن ته سٺو ڪنٽرول برقرار رکڻ چاهيندا آهن.
بائٽ ڊانس جي بيج-تصديق ڪندڙ ۽ بيج-سوچڻ-تصديق ڪندڙ کي وڌيڪ قابل اعتماد انعام ماڊلنگ جي طريقيڪار جي طور تي ڏسي سگهجي ٿو، جيڪي خاص طور تي اهم آهن جڏهن گراهڪن جي سامهون يا ضابطي واري ماحول ۾ ماڊل کي مقرر ڪيو وڃي.
سخت ڊيڊ لائن ۽ محدود وسيلن جي تحت ڪم ڪندڙ ٽيمن لاء، مضبوطي جي تعليم جي تحت روشن خيالي-v5.0 پاران ظاهر ڪيل استحڪام (وي اي پي او ۽ حرڪت واري نموني وانگر جدت جي مهرباني) تڪرار جي چڪر کي مختصر ڪرڻ ۽ مخصوص ڪمن لاء فائن ٽيوننگ جي عمل کي ترتيب ڏيڻ جو واعدو ڪري ٿو.
هڪ آرڪيسٽريشن ۽ تعیناتی جي نقطه نظر کان، ماڊل جي هائبرڊ انفراسٹرڪچر جي طريقيڪار- اسٽريمنگ رول آئوٽ سسٽم (ايس آر ايس) ۽ ايف پي 8 اصلاح جي حمايت سميت- تربيت جي ٿروپوٽ ۽ هارڊ ويئر جي استعمال ۾ اهم سڌارن کي پورٽ ڪري ٿو، جيڪو انجنيئرن لاء قيمتي آهي جيڪو بادل ۽ آن-احاطي سسٽم ۾ وڏن ٻولين جي ماڊل کي اسڪيلنگ ڪرڻ جو ڪم ڏئي ٿو.
ان کان علاوه، روشن خيالي-v5.0 تربيت دوران راندين جي بنياد تي انعام جي تاثرات جي حرڪت واري ترتيب لاء هڪ طريقيڪار اختيار ڪري ٿو، جيڪو سڌو سنئون مختلف ڊيٽا پائپ لائنن کي منظم ڪرڻ ۽ ڊومين ۾ تسلسل برقرار رکڻ جي چئلينج کي خطاب ڪري ٿو.
نئين اوزارن جي قابل اعتماد، ٻيهر، ۽ مسلسل انضمام کي يقيني بڻائڻ سان ڪم ڪندڙ ٽيمن لاء، انويشن-v5.0 جي سسٽم جي سطح جي ڊزائن هڪ مضبوط ملٽيموڊل آرڪيسٽريشن سسٽم ٺاهڻ لاء هڪ خاڪا طور ڪم ڪري ٿو.
ڊيٽا انجنيئرنگ پروفيسرن لاء، تربيت جي ڊيٽا لاء هي ٺهيل طريقو- سخت فلٽرنگ، ڊيٽا وڌائڻ، ۽ ماهر جي تصديق سميت- وڌيڪ ڊيٽا جي معيار جي اهميت کي ماڊل جي ڪارڪردگي جي ضرب جي حيثيت سان مضبوط ڪري ٿو ۽ شايد وڌيڪ ارادي ڊيٽاسٽ ترقي ۽ تصديق جي عمل کي متاثر ڪري سگهي ٿو.
مستقبل جي نقطه نظر قيسي-v5.0 بائٽ ڊانس جي سيڊ ايل ايل ايم سسٽم ٽيم جي اندر هڪ اندروني تعاون جو نتيجو آهي، جنهن جي اڳواڻي ۾ يونگهوئي وو ۽ عوامي طور تي ڊگهي عرصي تائين اي آئي جي شراکت دار هائيبن لن پاران ظاهر ڪيو ويو آهي.
اهو منصوبو اڳوڻي ڪوششن تي پڻ ٺاهيندو آهي، جهڙوڪ دوباو 5.0 پرو، ۽ آر ايل ايڇ ايف سان گڏ ڊيٽا ڪورشن ۾ ٽيڪنالاجيون حصيداري ڪرڻ کي شامل ڪري ٿو.
ٽيم کي تربيت جي ڪارڪردگي ۽ غير تصديق ٿيل ڪمن لاء انعام جي ماڊلنگ تي ڌيان ڏيڻ سان، مضبوطي جي تعليم جي ٽيڪنالاجي کي بهتر بڻائڻ جاري رکڻ جو منصوبو آهي. اهي عوامي اندروني بينچ مارڪ ٺاهڻ جو پڻ منصوبو ٺاهيندا آهن جهڙوڪ بيئنڊيايم اي ايم اي، جنهن جو مقصد اندازو-مرڪز اي آئي تحقيق جي وسيع ترقي کي هلائڻ آهي.