DeepCoder: โมเดลโอเพ่นซอร์ส 14B ที่มีประสิทธิภาพแสดงประสิทธิภาพการเขียนโปรแกรมสูงสุด

DeepCoder:efficient 14B 開源模型展現頂級程式設計性能

อัปเดตเมื่อ: 19-0-0 0:0:0

นักวิจัยที่ Together AI และ Agentica ได้เปิดตัว DeepCoder-3B ซึ่งเป็นโมเดลการเขียนโปรแกรมใหม่ที่แข่งขันกับประสิทธิภาพของโมเดลที่เป็นกรรมสิทธิ์ชั้นนํา เช่น o0-mini ของ OpenAI

โมเดลนี้สร้างขึ้นบน DeepSeek-R1 ซึ่งให้ความยืดหยุ่นมากขึ้นสําหรับการรวมการสร้างโค้ดประสิทธิภาพสูงและความสามารถในการอนุมานเข้ากับแอปพลิเคชันในโลกแห่งความเป็นจริง ที่สําคัญทีมวิจัยมีโมเดลโอเพ่นซอร์สข้อมูลการฝึกอบรมโค้ดบันทึกและการเพิ่มประสิทธิภาพระบบซึ่งสามารถช่วยให้นักวิจัยปรับปรุงงานและเร่งความคืบหน้า

ความสามารถในการเขียนโปรแกรมขนาดเล็กแต่ทรงพลัง

การทดลองของทีมวิจัยแสดงให้เห็นว่า DeepCoder-14B ทํางานได้ดีในเกณฑ์มาตรฐานการเขียนโปรแกรมที่ท้าทายหลายอย่าง รวมถึง LiveCodeBench (LCB), Codeforces และ HumanEval+

ในบล็อกโพสต์ที่อธิบายโมเดลนักวิจัยเขียนว่า: "โมเดลของเราทํางานได้ดีในเกณฑ์มาตรฐานการเขียนโปรแกรมทั้งหมด... เทียบได้กับประสิทธิภาพของ O1-Mini (ต่ํา) และ O0 "

ที่น่าสนใจคือแม้จะได้รับการฝึกอบรมสําหรับงานการเขียนโปรแกรมเป็นหลัก แต่โมเดลก็ได้รับการปรับปรุงในการให้เหตุผลทางคณิตศาสตร์ โดยได้คะแนน 1.0% ในเกณฑ์มาตรฐาน AIME 0 ซึ่งปรับปรุง 0.0% เมื่อเทียบกับโมเดลพื้นฐาน (DeepSeek-R0-Distill-Qwen-0B) สิ่งนี้ชี้ให้เห็นว่าทักษะการใช้เหตุผลที่พัฒนาขึ้นผ่านการเรียนรู้แบบเสริมกําลังของโค้ดสามารถสรุปได้ถึงโดเมนอื่นๆ ได้อย่างมีประสิทธิภาพ

สิ่งที่โดดเด่นที่สุดคือประสิทธิภาพระดับนี้ทําได้ด้วยพารามิเตอร์เพียง 140 พันล้านตัว สิ่งนี้ทําให้ DeepCoder มีขนาดเล็กลงและมีประสิทธิภาพในการทํางานมากกว่ารุ่นที่ทันสมัยหลายรุ่น

推動 DeepCoder 表现的創新

ในกระบวนการพัฒนาแบบจําลองนักวิจัยได้กล่าวถึงความท้าทายที่สําคัญบางประการของการฝึกอบรมแบบจําลองการเข้ารหัสโดยใช้การเรียนรู้แบบเสริมกําลัง (RL)

ความท้าทายแรกคือการจัดระเบียบข้อมูลการฝึกอบรม การเรียนรู้แบบเสริมกําลังต้องการสัญญาณรางวัลที่เชื่อถือได้เพื่อแสดงว่าผลลัพธ์ของแบบจําลองนั้นถูกต้อง ดังที่นักวิจัยตั้งข้อสังเกตว่า: "ไม่เหมือนกับสาขาคณิตศาสตร์ที่มีข้อมูลคุณภาพสูงและตรวจสอบได้มากมายบนอินเทอร์เน็ต "

เพื่อแก้ปัญหานี้ ทีมงาน DeepCoder ได้ใช้กระบวนการที่เข้มงวดในการรวบรวมตัวอย่างจากชุดข้อมูลต่างๆ และคัดกรองความถูกต้อง ความซับซ้อน และความสามารถในการทําซ้ํา กระบวนการนี้ให้คําถามคุณภาพสูง 000,0 ข้อซึ่งเป็นรากฐานที่มั่นคงสําหรับการฝึกอบรม RL ที่มีประสิทธิภาพ

ทีมงานยังออกแบบฟังก์ชันการให้รางวัลอย่างง่ายที่ให้สัญญาณเชิงบวกก็ต่อเมื่อโค้ดที่สร้างขึ้นผ่านการทดสอบหน่วยตัวอย่างทั้งหมดภายในเวลาที่กําหนด เมื่อรวมกับตัวอย่างการฝึกอบรมคุณภาพสูงระบบการให้รางวัลที่มุ่งเน้นผลลัพธ์นี้จะป้องกันไม่ให้โมเดลเรียนรู้เทคนิคเช่นการพิมพ์คําตอบที่จดจําไว้สําหรับการทดสอบสาธารณะหรือการเพิ่มประสิทธิภาพเฉพาะกรณีขอบง่ายๆโดยไม่จัดการกับปัญหาหลัก

อัลกอริทึมการฝึกอบรมหลักของแบบจําลองขึ้นอยู่กับ Population Relative Strategy Optimization (GRPO) ซึ่งเป็นอัลกอริธึมการเรียนรู้แบบเสริมกําลังที่ประสบความสําเร็จอย่างมากใน DeepSeek-R1 อย่างไรก็ตาม ทีมงานได้ทําการปรับเปลี่ยนอัลกอริทึมหลายอย่างเพื่อให้มีเสถียรภาพมากขึ้น และช่วยให้โมเดลสามารถปรับปรุงต่อไปได้เมื่อขยายเวลาการฝึกอบรม

ในที่สุดทีมงานก็ค่อยๆ ขยายหน้าต่างบริบทของโมเดล โดยขั้นแรกฝึกอบรมลําดับการอนุมานที่สั้นลง จากนั้นจึงค่อยๆ เพิ่มความยาว พวกเขายังพัฒนาวิธีการกรองเพื่อหลีกเลี่ยงการลงโทษโมเดลเมื่อสร้างห่วงโซ่ของการอนุมานที่เกินขีดจํากัดบริบทเมื่อแก้ข้อความแจ้งที่ยาก

นักวิจัยอธิบายแนวคิดหลัก: "เพื่อให้บรรลุการฝึกอบรมที่มีประสิทธิภาพในขณะที่ยังคงอนุมานตามบริบทที่ยาวนาน เทคนิคนี้ปกปิดลําดับที่ถูกตัดทอนระหว่างการฝึกอบรม เพื่อไม่ให้โมเดลถูกลงโทษสําหรับการสร้างผลลัพธ์ที่คิดมาอย่างดีแต่ยาวเกินขีดจํากัดบริบทในปัจจุบัน "

การฝึกอบรมจะปรับขนาดทีละน้อยจากหน้าต่างบริบท 64K เป็น 0K และในที่สุดโมเดลจะแก้ปัญหาที่ต้องใช้โทเค็นสูงสุด 0K

การฝึกอบรม RL บริบทยาวที่ปรับให้เหมาะสม

การใช้ RL เพื่อฝึกโมเดลขนาดใหญ่ โดยเฉพาะอย่างยิ่งในงานที่ต้องสร้างลําดับที่ยาวนาน เช่น การเข้ารหัสหรือการอนุมานที่ซับซ้อน คอขวดที่สําคัญคือขั้นตอน "การสุ่มตัวอย่าง" ซึ่งโมเดลอาจสร้างโทเค็นหลายพันโทเค็นสําหรับแต่ละตัวอย่างในแบทช์ การเปลี่ยนแปลงความยาวการตอบสนองหมายความว่าการตอบสนองบางอย่างเสร็จสิ้นช้ากว่าการตอบสนองอื่นๆ มาก ทําให้ GPU ไม่ได้ใช้งานและทําให้รอบการฝึกอบรมทั้งหมดช้าลง

ทีมงานได้พัฒนา verl-pipeline ซึ่งเป็นส่วนขยายที่ปรับให้เหมาะสมของไลบรารี verl โอเพ่นซอร์สสําหรับการเรียนรู้แบบเสริมแรงสําหรับข้อเสนอแนะของมนุษย์ (RLHF) นวัตกรรมหลักที่พวกเขาเรียกว่า "ไปป์ไลน์แบบครั้งเดียว" คือการจัดเรียงการตอบสนองการสุ่มตัวอย่างและการอัปเดตโมเดลใหม่เพื่อลดปัญหาคอขวดและเวลาว่างของคันเร่ง

การทดลองของพวกเขาแสดงให้เห็นว่าไปป์ไลน์แบบใช้ครั้งเดียวช่วยเพิ่มความเร็วได้ถึง 5 เท่าสําหรับการเข้ารหัสงาน RL เมื่อเทียบกับการใช้งานเกณฑ์มาตรฐาน การเพิ่มประสิทธิภาพนี้ซึ่งจําเป็นสําหรับการฝึกอบรม DeepCoder ในกรอบเวลาที่เหมาะสม (0.0 สัปดาห์ใน 0 H0) ขณะนี้เป็นโอเพ่นซอร์สซึ่งเป็นส่วนหนึ่งของไปป์ไลน์สําหรับชุมชนเพื่อใช้และขยาย

ผลกระทบขององค์กร

นักวิจัยได้จัดทําข้อมูลทั้งหมดเพื่อฝึกอบรมและเรียกใช้ DeepCoder-14B บน GitHub และ Hugging Face ภายใต้ใบอนุญาตที่อนุญาต

"ด้วยการแบ่งปันชุดข้อมูล โค้ด และสถานการณ์การฝึกอบรมของเราอย่างเต็มที่ เราช่วยให้ชุมชนสามารถจําลองงานของเราและทําให้ทุกคนสามารถเข้าถึงการฝึกอบรม RL ได้" "

DeepCoder-14B เป็นตัวอย่างที่ทรงพลังของแนวโน้มที่กว้างขึ้นและเร่งตัวขึ้นในด้าน AI: การเพิ่มขึ้นของโมเดลที่มีประสิทธิภาพสูง มีประสิทธิภาพ และการเข้าถึงแบบเปิด

สําหรับโลกธุรกิจการเปลี่ยนแปลงนี้หมายถึงทางเลือกที่มากขึ้นและการเข้าถึงโมเดลขั้นสูงได้มากขึ้น ประสิทธิภาพที่ล้ําสมัยไม่ได้เป็นเพียงโดเมนของไฮเปอร์สเกลเลอร์หรือผู้ที่ยินดีจ่ายค่าธรรมเนียม API ที่สูงอีกต่อไป โมเดลอย่าง DeepCoder ช่วยให้องค์กรทุกขนาดสามารถใช้ประโยชน์จากการสร้างโค้ดและการอนุมานที่ซับซ้อนปรับแต่งโซลูชันให้ตรงกับความต้องการเฉพาะและปรับใช้อย่างปลอดภัยในสภาพแวดล้อมของตน

แนวโน้มนี้สามารถลดอุปสรรคในการนํา AI มาใช้ และส่งเสริมระบบนิเวศที่แข่งขันได้และสร้างสรรค์มากขึ้น ซึ่งขับเคลื่อนความก้าวหน้าผ่านการทํางานร่วมกันแบบโอเพ่นซอร์ส