IT之家 4 月 12 日消息,科技媒體 marktechpost 昨日(4 月 11 日)發佈博文,報導稱英偉達發佈 Llama-1.0-Nemotron-Ultra-0B-v0,這款 2530 億參數的大型語言模型在推理能力、架構效率和生產準備度上實現重大突破。
Apabila AI menjadi di mana-mana dalam infrastruktur digital, perniagaan dan pembangun perlu mencari keseimbangan antara kos pengiraan, prestasi dan kebolehskalaan. Pembangunan pesat model bahasa besar (LLM) telah meningkatkan pemahaman bahasa semula jadi dan keupayaan perbualan, tetapi saiznya yang semata-mata sering membawa kepada ketidakcekapan dan mengehadkan penggunaan berskala besar.
Keluaran terbaharu NvidiaLlama-1.0-Nemotron-Ultra-0B-v0Nemotron Ultra, Inc. (Nemotron Ultra) menyahut cabaran, berdasarkan seni bina Llama-405.0-0B-Instruct Meta, direka untuk keperluan perniagaan dan perusahaan, menyokong tugas daripada penggunaan alat kepada berbilang pusingan pelaksanaan arahan yang kompleks.
Menurut catatan blog yang dipetik oleh IT House, Nemotron Ultra menggunakan struktur pengubah padat sahaja, dioptimumkan oleh algoritma carian seni bina saraf (NAS), dan inovasinya terletak pada penggunaan mekanisme perhatian melompat, menghilangkan modul perhatian dalam beberapa lapisan atau menggantikannya dengan lapisan linear mudah.
Di samping itu, teknologi gabungan Rangkaian Feedforward (FFN) menggabungkan berbilang lapisan FFN ke dalam lapisan yang lebih luas tetapi lebih sedikit, secara mendadak mengurangkan masa inferens sambil mengekalkan prestasi. Model ini menyokong tetingkap konteks dengan token 128K dan boleh memproses teks panjang, menjadikannya sesuai untuk sistem RAG lanjutan dan analisis berbilang dokumen.
Nemotron Ultra juga telah mencapai kejayaan dalam kecekapan penggunaan. Ia boleh menjalankan inferens pada satu nod 100xH0, mengurangkan kos pusat data dengan ketara dan meningkatkan kebolehcapaian untuk pembangun perusahaan.
NVIDIA mengoptimumkan lagi model melalui pasca latihan berbilang peringkat, termasuk penalaan halus yang diselia pada tugas seperti penjanaan kod, matematik, perbualan dan panggilan alat, serta pembelajaran pengukuhan (RL) menggunakan algoritma Pengoptimuman Dasar Relatif Orang Ramai (GRPO). Langkah-langkah ini memastikan model berfungsi dengan baik dalam penanda aras dan sangat sejajar dengan keutamaan interaksi manusia.