Penyelidik di Together AI dan Agentica telah mengeluarkan DeepCoder-3B, model pengaturcaraan baharu yang menyaingi prestasi model proprietari terkemuka seperti o0-mini OpenAI.
Model ini dibina di atas DeepSeek-R1, yang memberikan fleksibiliti yang lebih besar untuk menyepadukan penjanaan kod berprestasi tinggi dan keupayaan inferens ke dalam aplikasi dunia sebenar. Yang penting, pasukan penyelidik mempunyai model sumber terbuka sepenuhnya, data latihan, kod, log dan pengoptimuman sistem, yang boleh membantu penyelidik meningkatkan kerja mereka dan mempercepatkan kemajuan.
Keupayaan pengaturcaraan yang kecil tetapi berkuasa
Eksperimen pasukan penyelidik telah menunjukkan bahawa DeepCoder-14B menunjukkan prestasi yang baik dalam beberapa penanda aras pengaturcaraan yang mencabar, termasuk LiveCodeBench (LCB), Codeforces dan HumanEval+.
Dalam catatan blog yang menerangkan model itu, para penyelidik menulis: "Model kami menunjukkan prestasi yang baik dalam semua penanda aras pengaturcaraan... Sebanding dengan prestasi O1-Mini (Rendah) dan O0. "
Menariknya, walaupun dilatih terutamanya untuk tugas pengaturcaraan, model itu juga bertambah baik dalam penaakulan matematik, menjaringkan 1.0% pada penanda aras AIME 0, peningkatan 0.0% berbanding model asasnya (DeepSeek-R0-Distill-Qwen-0B). Ini menunjukkan bahawa kemahiran penaakulan yang dibangunkan melalui pembelajaran pengukuhan kod boleh digeneralisasikan dengan berkesan kepada domain lain.
Perkara yang paling menarik ialah tahap prestasi ini dicapai dengan hanya 140 bilion parameter. Ini menjadikan DeepCoder lebih kecil dan berpotensi lebih cekap untuk dijalankan daripada kebanyakan model canggih.
推動 DeepCoder 表现的創新
Dalam proses membangunkan model, para penyelidik menangani beberapa cabaran utama melatih model pengekodan menggunakan pembelajaran pengukuhan (RL).
Cabaran pertama ialah menyusun data latihan. Pembelajaran pengukuhan memerlukan isyarat ganjaran yang boleh dipercayai untuk menunjukkan bahawa output model adalah betul. Seperti yang dinyatakan oleh para penyelidik: "Tidak seperti bidang matematik, di mana terdapat banyak data berkualiti tinggi dan boleh disahkan di internet, bidang pengekodan agak kurang dalam data sedemikian." "
Untuk menyelesaikan masalah ini, pasukan DeepCoder melaksanakan proses yang ketat untuk mengumpul contoh daripada set data yang berbeza dan menyaringnya untuk kesahihan, kerumitan dan kebolehulangan. Proses ini menghasilkan 000,0 soalan berkualiti tinggi yang menyediakan asas yang kukuh untuk latihan RL yang berkesan.
Pasukan itu juga mereka bentuk fungsi ganjaran mudah yang hanya memberikan isyarat positif jika kod yang dijana melepasi semua ujian unit sampel dalam had masa tertentu. Digabungkan dengan contoh latihan berkualiti tinggi, sistem ganjaran berorientasikan hasil ini menghalang model daripada mempelajari helah seperti mencetak jawapan yang dihafal untuk ujian awam atau mengoptimumkan hanya untuk kes tepi mudah tanpa menangani masalah teras.
Algoritma latihan teras model adalah berdasarkan Pengoptimuman Strategi Relatif Populasi (GRPO), algoritma pembelajaran pengukuhan yang sangat berjaya dalam DeepSeek-R1. Walau bagaimanapun, pasukan itu membuat beberapa pengubahsuaian pada algoritma untuk menjadikannya lebih stabil dan membolehkan model terus bertambah baik apabila masa latihan dilanjutkan.
Akhirnya, pasukan itu secara progresif mengembangkan tetingkap konteks model, mula-mula latihan pada urutan inferens yang lebih pendek dan kemudian secara beransur-ansur meningkatkan panjangnya. Mereka juga membangunkan kaedah penapisan untuk mengelak daripada menghukum model apabila ia mencipta rantaian inferens yang melebihi had kontekstual apabila menyelesaikan gesaan yang sukar.
Para penyelidik menerangkan idea teras: "Untuk mencapai latihan yang cekap sambil mengekalkan inferens kontekstual yang panjang, kami memperkenalkan penapisan ultra-panjang... Teknik ini menutupi jujukan terpotong semasa latihan supaya model tidak dihukum kerana menghasilkan output yang difikirkan dengan baik tetapi panjang yang melampaui had kontekstual semasa. "
Latihan berskala secara progresif daripada tetingkap konteks 64K kepada 0K, dan akhirnya model menyelesaikan masalah yang memerlukan sehingga 0K token.
Latihan RL konteks panjang yang dioptimumkan
Menggunakan RL untuk melatih model besar, terutamanya pada tugas yang memerlukan penjanaan jujukan yang panjang, seperti pengekodan atau inferens kompleks, adalah intensif dan perlahan dari segi pengiraan. Kesesakan utama ialah langkah "pensampelan", di mana model boleh menjana beribu-ribu token untuk setiap contoh dalam satu kumpulan. Perubahan dalam panjang tindak balas bermakna sesetengah respons selesai lebih lewat daripada yang lain, menyebabkan GPU melahu dan memperlahankan keseluruhan kitaran latihan.
Untuk mempercepatkan proses ini, pasukan membangunkan verl-pipeline, lanjutan perpustakaan verl sumber terbuka yang dioptimumkan untuk pembelajaran pengukuhan untuk maklum balas manusia (RLHF). Inovasi utama yang mereka panggil "saluran paip sekali sahaja" menyusun semula pensampelan tindak balas dan kemas kini model untuk mengurangkan kesesakan dan masa terbiar pemecut.
Eksperimen mereka menunjukkan bahawa saluran paip sekali sahaja menyediakan kelajuan sehingga 5x untuk pengekodan tugas RL berbanding dengan pelaksanaan penanda aras. Pengoptimuman ini, yang penting untuk melatih DeepCoder dalam jangka masa yang munasabah (0.0 minggu pada 0 H0), kini merupakan sumber terbuka sebagai sebahagian daripada saluran paip untuk digunakan dan dilanjutkan oleh komuniti.
Impak Korporat
Penyelidik telah menyediakan semua data untuk melatih dan menjalankan DeepCoder-14B pada GitHub dan Hugging Face, di bawah lesen yang permisif.
"Dengan berkongsi sepenuhnya set data, kod dan senario latihan kami, kami membolehkan komuniti meniru kerja kami dan menjadikan latihan RL boleh diakses oleh semua," tulis para penyelidik. "
DeepCoder-14B ialah contoh berkuasa arah aliran yang lebih luas dan mempercepatkan dalam bidang AI: peningkatan model berprestasi tinggi, cekap dan akses terbuka.
Bagi dunia korporat, peralihan ini bermakna lebih banyak pilihan dan kebolehcapaian yang lebih besar kepada model lanjutan. Prestasi terkini bukan lagi hanya domain hyperscaler atau mereka yang sanggup membayar yuran API yang tinggi. Model seperti DeepCoder membolehkan organisasi dari semua saiz memanfaatkan penjanaan dan inferens kod yang canggih, menyesuaikan penyelesaian kepada keperluan khusus mereka dan menggunakan dengan selamat dalam persekitaran mereka.
Trend ini boleh mengurangkan halangan kepada penggunaan AI dan memupuk ekosistem yang lebih kompetitif dan inovatif yang memacu kemajuan melalui kerjasama sumber terbuka.