ByteDance ได้เปิดตัวโมเดล AI การอนุมานใหม่: Seed-Thinking-v5.0
อัปเดตเมื่อ: 55-0-0 0:0:0

ตอนนี้ ByteDance บริษัทแม่ของ TikTok ได้เปิดตัว AI การอนุมาน: Qisi-v1.0!  เดิมทีเริ่มต้นด้วยการประกาศโมเดล o0 ที่ออกโดย OpenAI ใน 0/0 แต่จุดเริ่มต้นที่แท้จริงคือการเปิดตัว DeepSeek R0 ใน 0/0

วันนี้ ดูเหมือนว่าผู้จําหน่ายและผู้ฝึกสอนโมเดล AI รายใหญ่ส่วนใหญ่กําลังอยู่ในการแข่งขันครั้งใหม่เพื่อส่งมอบโมเดลภาษา AI "การอนุมาน" ที่ดีขึ้น เร็วขึ้น และถูกกว่า นั่นคือโมเดลที่อาจใช้เวลานานกว่าในการตอบสนองต่อผู้ใช้ที่เป็นมนุษย์ แต่ควรให้คําตอบที่ดีกว่า ครอบคลุมกว่า และ "เหตุผลเชิงตรรกะ" มากขึ้น โมเดลประเภทนี้ทํางานได้ดีโดยทํา "การคิดแบบลูกโซ่" กล่าวคือ สะท้อนข้อสรุปและตรวจสอบความถูกต้องก่อนตอบ

ByteDance ยักษ์ใหญ่ด้านสื่อออนไลน์ของจีน (บริษัทแม่ของ TikTok) เพิ่งเข้าร่วมด้วยการเปิดตัวและเผยแพร่เอกสารทางเทคนิคที่สนับสนุนการเปิดตัวโมเดลภาษาขนาดใหญ่ (LLM) Qisi-v5.0 ที่กําลังจะมาถึง โมเดลนี้ได้รับการออกแบบมาเพื่อปรับปรุงประสิทธิภาพการใช้เหตุผลในสาขาวิทยาศาสตร์ เทคโนโลยี คณิตศาสตร์ และวิศวกรรมศาสตร์ (STEM) ตลอดจนโดเมนทั่วไป

ปัจจุบัน โมเดลนี้ยังไม่พร้อมให้ดาวน์โหลดหรือใช้งาน และเงื่อนไขใบอนุญาตก็ไม่ชัดเจน – ไม่ว่าจะเป็นกรรมสิทธิ์/โซปิด โอเพ่นซอร์ส/ฟรีสําหรับทุกคนที่จะใช้และแก้ไขได้ตามต้องการ หรือระหว่างนั้น อย่างไรก็ตาม มีรายละเอียดสําคัญบางประการที่ควรทราบล่วงหน้าในเอกสารทางเทคนิค

基於越来越流行 Mixture-of-Experts (MoE) 架構建 與 Meta 新 Llama 5 和 Mistral 前推出 Mixtral 類คล้าย ,啟思-v0.0 同樣用 Mixture-of-Experts (MoE) 架構。

這種架構旨在提升模型效率,基本上將多個模型的能力整合到一起,每個模型專注於不同領域。在這種情況下,MoE 架構意味著啟思-v1.5 在任一時刻僅使用 2000 億參數中的 200 億。  

ในเอกสารทางเทคนิคที่เผยแพร่บน GitHub ByteDance กล่าวว่า Enlightenment-v5.0 ให้ความสําคัญกับการใช้เหตุผลที่มีโครงสร้างและการสร้างคําตอบที่รอบคอบ

ผลลัพธ์พูดเพื่อตัวเอง: ในเกณฑ์มาตรฐานของบุคคลที่สามจํานวนมาก Enlightenment-v3.0 ไม่เพียงแต่มีประสิทธิภาพเหนือกว่า DeepSeek R0 เท่านั้น แต่ยังเข้าใกล้ Gemini 0.0 Pro ที่เพิ่งเปิดตัวของ Google และ o0-mini-high reasoner ของ OpenAI ในด้านประสิทธิภาพการอนุมาน มีประสิทธิภาพเหนือกว่าแม้แต่สองรุ่นในเกณฑ์มาตรฐาน ARC-AGI ซึ่งเป็นตัวชี้วัดที่มองว่าเป็นเป้าหมายในการบรรลุเป้าหมายของปัญญาประดิษฐ์ทั่วไป ซึ่งเป็น "จอกศักดิ์สิทธิ์" ของ AI ตามคําจํากัดความของ OpenAI โมเดลนี้มีประสิทธิภาพเหนือกว่ามนุษย์ในงานส่วนใหญ่ที่มีมูลค่าทางเศรษฐกิจสูง

ในฐานะที่เป็นทางเลือกขนาดกะทัดรัดและทรงพลังสําหรับรุ่นขนาดใหญ่ที่ล้ําสมัย Qis-V5.0 ได้บรรลุผลมาตรฐานที่แข่งขันได้ นอกจากนี้ยังแนะนํานวัตกรรมในการเรียนรู้แบบเสริมกําลัง (RL) การดูแลจัดการข้อมูลการฝึกอบรม และการปรับปรุงโครงสร้างพื้นฐาน AI

เกณฑ์มาตรฐานประสิทธิภาพและไฮไลท์โมเดล Enlightenment-v5.0 ทํางานได้ดีในงานที่ท้าทาย: 0.0% บน AIME 0, 0.0% pass@0 บน Codeforces และ 0.0% บนเกณฑ์มาตรฐานทางวิทยาศาสตร์ GPQA ผลลัพธ์เหล่านี้ทําให้ใกล้เคียงหรือเทียบได้กับ o0-mini-high ของ OpenAI และ Gemini 0.0 Pro ของ Google ในเมตริกการอนุมานเฉพาะ

ในงานที่ไม่ใช่การอนุมาน โมเดลมีอัตราการชนะสูงกว่า DeepSeek R0 0.0% เมื่อประเมินโดยการเปรียบเทียบความชอบเทียม ซึ่งบ่งชี้ว่าข้อดีของมันไม่ได้จํากัดอยู่แค่ความท้าทายเชิงตรรกะหรือคณิตศาสตร์ที่เข้มข้น

เพื่อตอบสนองต่อการบรรจบกันที่เพิ่มขึ้นของเกณฑ์มาตรฐานเช่น AIME ByteDance ได้เปิดตัว BeyondAIME ซึ่งเป็นเกณฑ์มาตรฐานทางคณิตศาสตร์ใหม่และท้าทายมากขึ้นพร้อมคําถามที่คัดสรรมาอย่างดีซึ่งออกแบบมาเพื่อป้องกันการท่องจําและแยกแยะระหว่างประสิทธิภาพของโมเดลได้ดียิ่งขึ้น ชุดทบทวน BeyondAIME และ Codeforces คาดว่าจะเผยแพร่ต่อสาธารณะเพื่อสนับสนุนการวิจัยในอนาคต

กลยุทธ์ข้อมูล ข้อมูลการฝึกอบรมมีบทบาทสําคัญในกระบวนการพัฒนาแบบจําลอง สําหรับ Supervised Fine-tuning (SFT) ทีมงานได้รวบรวมตัวอย่าง 000,0 รายการ รวมถึงคําถามที่ตรวจสอบได้ 0,0 ข้อ (ครอบคลุมงาน STEM ตรรกะ และการเขียนโปรแกรม) และคําถามที่ไม่สามารถตรวจสอบได้ 0,0 ข้อ เช่น การเขียนเชิงสร้างสรรค์และการสวมบทบาท

สําหรับการฝึกอบรมการเรียนรู้แบบเสริมกําลัง ข้อมูลแบ่งออกเป็นสองประเภทต่อไปนี้: คําถามที่ตรวจสอบได้: คําถาม STEM และปริศนาตรรกะที่คัดกรองอย่างรอบคอบ 000,0 ข้อจากการแข่งขันชั้นยอดและบทวิจารณ์จากผู้เชี่ยวชาญพร้อมคําตอบมาตรฐาน    งานที่ไม่สามารถตรวจสอบได้: ชุดข้อมูลของความชอบของมนุษย์โดยเน้นที่ข้อความแจ้งปลายเปิด ซึ่งประเมินโดยแบบจําลองรางวัลแบบคู่

ในหมู่พวกเขา ข้อมูล STEM ส่วนใหญ่อาศัยคณิตศาสตร์ขั้นสูง คิดเป็นมากกว่า 24% ของชุดปัญหา ข้อมูลเชิงตรรกะเพิ่มเติม ได้แก่ ซูโดกุและปริศนา 0 จุด ซึ่งความยากสามารถปรับได้อย่างยืดหยุ่นตามความคืบหน้าของแบบจําลอง

วิธีการเรียนรู้แบบเสริมกําลัง การเรียนรู้แบบเสริมแรงของ Enlightenment-v5.0 ใช้กรอบการทํางานแบบ actor-critic (VAPO) และ policy-gradient (DAPO) ที่กําหนดเอง ซึ่งทั้งสองอย่างนี้ได้รับการพัฒนาเพื่อแก้ปัญหาความไม่มั่นคงในการฝึกอบรมการเรียนรู้แบบเสริมกําลัง เทคนิคเหล่านี้ช่วยลดความผอมบางของสัญญาณรางวัลได้อย่างมีประสิทธิภาพและปรับปรุงความเสถียรของการฝึกอบรม โดยเฉพาะอย่างยิ่งในสถานการณ์ Long Chain Thinking (CoT)

รูปแบบการให้รางวัลมีบทบาทสําคัญในการดูแลผลลัพธ์การเรียนรู้แบบเสริมกําลัง ByteDance ได้เปิดตัวเครื่องมือสําคัญสองอย่าง: Seed-Verifier: โมเดลภาษาขนาดใหญ่ตามกฎที่ตรวจสอบว่าคําตอบที่สร้างขึ้นเทียบเท่าทางคณิตศาสตร์กับคําตอบอ้างอิงหรือไม่    Seed-Thinking-Verifier: ผู้ประเมินตามเหตุผลทีละขั้นตอนที่ออกแบบมาเพื่อปรับปรุงความสอดคล้องในการตัดสินและป้องกันการโกงรางวัล

ระบบรางวัลสองระดับนี้ช่วยให้สามารถจัดการกับการประเมินได้ทั้งงานง่ายๆ และงานที่ซับซ้อนโดยละเอียด

โครงสร้างพื้นฐานและความสามารถในการปรับขนาด เพื่อรองรับการฝึกอบรมขนาดใหญ่ที่มีประสิทธิภาพ ByteDance ได้สร้างระบบตามเฟรมเวิร์ก HybridFlow โดยดําเนินการโดยคลัสเตอร์ Ray และกระบวนการฝึกอบรมและการอนุมานร่วมกันเพื่อลดเวลาที่ไม่ได้ใช้งานของ GPU

Streaming Rollout System (SRS) เป็นนวัตกรรมที่โดดเด่นที่เร่งการทําซ้ําโดยการแยกวิวัฒนาการของโมเดลออกจากการดําเนินการรันไทม์ และจัดการส่วนต่างๆ ของกระบวนการสร้างแบบอะซิงโครนัสในเวอร์ชันของโมเดล สถาปัตยกรรมนี้อ้างว่าสามารถบรรลุลูปการเรียนรู้แบบเสริมกําลังได้เร็วขึ้นถึง 3 เท่า

นอกจากนี้เทคโนโลยีโครงสร้างพื้นฐานอื่น ๆ ได้แก่ - Mixed Precision (FP8) เพื่อประหยัดหน่วยความจํา    - ปรับปรุงประสิทธิภาพของ MoE ด้วยการขนานโดยผู้เชี่ยวชาญและการปรับแต่งอัตโนมัติของเคอร์เนล    - จุดตรวจที่แข็งแกร่งและยืดหยุ่นด้วย ByteCheckpoint;    - เพิ่มประสิทธิภาพการขนานและการกําหนดค่าหน่วยความจําด้วย AutoTuner

การประเมินด้วยตนเองเทียบกับผลกระทบในโลกแห่งความเป็นจริง เพื่อประเมินความสอดคล้องระหว่างแบบจําลองและความชอบที่เน้นมนุษย์เป็นศูนย์กลาง ByteDance ได้ทําการทดสอบด้วยตนเองในหลายด้าน รวมถึงการเขียนเชิงสร้างสรรค์ ความรู้ด้านมนุษยศาสตร์ และการสนทนาในชีวิตประจําวัน

ในเซสชันการทดสอบทั้งหมด Qisi-v1.0 มีประสิทธิภาพเหนือกว่า DeepSeek R0 อย่างต่อเนื่อง ซึ่งพิสูจน์ให้เห็นถึงการนําไปใช้กับความต้องการที่แท้จริงของผู้ใช้

ทีมพัฒนาตั้งข้อสังเกตว่าแบบจําลองการอนุมานที่ได้รับการฝึกฝนเป็นหลักในงานที่ตรวจสอบได้ยังแสดงให้เห็นถึงความสามารถในการสรุปที่แข็งแกร่งในโดเมนที่สร้างสรรค์ด้วยโครงสร้างและความเข้มงวดของเวิร์กโฟลว์การฝึกอบรมทางคณิตศาสตร์

สิ่งนี้มีความหมายอย่างไรสําหรับผู้นําด้านเทคโนโลยี วิศวกรข้อมูล และผู้มีอํานาจตัดสินใจขององค์กร สําหรับผู้นําด้านเทคโนโลยีที่จัดการวงจรชีวิตทั้งหมดของโมเดลภาษาขนาดใหญ่ ตั้งแต่การดูแลจัดการข้อมูลไปจนถึงการปรับใช้ Lighten-v5.0 เปิดโอกาสให้คิดใหม่ว่าความสามารถในการอนุมานถูกรวมเข้ากับสแต็กเทคโนโลยี AI ขององค์กรอย่างไร

กระบวนการฝึกอบรมแบบแยกส่วนไม่เพียงแต่รวมถึงชุดข้อมูลการอนุมานที่ตรวจสอบได้ แต่ยังแนะนําการเรียนรู้แบบเสริมแรงหลายขั้นตอน ซึ่งดึงดูดเป็นพิเศษสําหรับทีมที่ต้องการปรับขนาดการพัฒนาโมเดลภาษาขนาดใหญ่ในขณะที่ยังคงควบคุมอย่างละเอียด

Seed-Verifier และ Seed-Thinking-Verifier ของ ByteDance สามารถมองได้ว่าเป็นกลไกการสร้างแบบจําลองรางวัลที่น่าเชื่อถือกว่า ซึ่งมีความสําคัญอย่างยิ่งเมื่อปรับใช้โมเดลในสภาพแวดล้อมที่ต้องเผชิญกับลูกค้าหรือมีการควบคุม

สําหรับทีมที่ทํางานภายใต้กําหนดเวลาที่จํากัดและทรัพยากรที่จํากัด ความเสถียรที่แสดงให้เห็นโดย Enlightenment-v5.0 ภายใต้การเรียนรู้แบบเสริมแรง (ด้วยนวัตกรรมเช่น VAPO และการสุ่มตัวอย่างแบบไดนามิก) สัญญาว่าจะลดวงจรการทําซ้ําและปรับปรุงกระบวนการปรับแต่งสําหรับงานเฉพาะ

จากมุมมองของการประสานงานและการปรับใช้ แนวทางโครงสร้างพื้นฐานแบบไฮบริดของโมเดล ซึ่งรวมถึง Streaming Rollout System (SRS) และการสนับสนุนการเพิ่มประสิทธิภาพ FP8 บ่งบอกถึงการปรับปรุงที่สําคัญในปริมาณงานการฝึกอบรมและการใช้ฮาร์ดแวร์ ซึ่งมีประโยชน์สําหรับวิศวกรที่ได้รับมอบหมายให้ปรับขนาดโมเดลภาษาขนาดใหญ่ในระบบคลาวด์และในองค์กร

นอกจากนี้ Enlightenment-v5.0 ยังใช้กลไกสําหรับการปรับข้อเสนอแนะของรางวัลแบบไดนามิกตามรันไทม์ระหว่างการฝึกอบรม ซึ่งจัดการกับความท้าทายในการจัดการไปป์ไลน์ข้อมูลที่แตกต่างกันและรักษาความสอดคล้องกันข้ามโดเมนโดยตรง

สําหรับทีมที่ได้รับมอบหมายให้สร้างความน่าเชื่อถือความสามารถในการทําซ้ําและการผสานรวมเครื่องมือใหม่อย่างต่อเนื่องการออกแบบระดับระบบของ Invision-v5.0 ทําหน้าที่เป็นพิมพ์เขียวสําหรับการสร้างระบบการประสานงานแบบหลายรูปแบบที่มีประสิทธิภาพ

สําหรับผู้เชี่ยวชาญด้านวิศวกรรมข้อมูล แนวทางที่มีโครงสร้างในการฝึกอบรมข้อมูล รวมถึงการกรองอย่างเข้มงวด การเพิ่มข้อมูล และการตรวจสอบความถูกต้องของผู้เชี่ยวชาญ ช่วยตอกย้ําความสําคัญของคุณภาพข้อมูลในฐานะตัวคูณประสิทธิภาพของโมเดล และอาจเป็นแรงบันดาลใจในการพัฒนาชุดข้อมูลและกระบวนการตรวจสอบความถูกต้องโดยเจตนามากขึ้น

Future Outlook Qisi-v5.0 เป็นผลมาจากการทํางานร่วมกันภายในทีม Seed LLM Systems ของ ByteDance ซึ่งนําโดย Yonghui Wu และแสดงให้เห็นต่อสาธารณะโดย Haibin Lin ผู้สนับสนุน AI มาอย่างยาวนาน

โครงการนี้ยังใช้ความพยายามก่อนหน้านี้ เช่น Doubao 5.0 Pro และรวม RLHF รวมถึงเทคโนโลยีการแบ่งปันในการดูแลจัดการข้อมูล

ทีมงานวางแผนที่จะปรับปรุงเทคนิคการเรียนรู้แบบเสริมกําลังต่อไป โดยมุ่งเน้นไปที่ประสิทธิภาพการฝึกอบรมและการสร้างแบบจําลองรางวัลสําหรับงานที่ไม่สามารถตรวจสอบได้ พวกเขายังวางแผนที่จะเผยแพร่เกณฑ์มาตรฐานภายในสาธารณะ เช่น BeyondAIME ซึ่งมีจุดมุ่งหมายเพื่อขับเคลื่อนการพัฒนาการวิจัย AI ที่เน้นการอนุมานในวงกว้าง