Tajuk: OpenAI Membentuk Semula Sistem Pemarkahan Model AI: Daripada "Dunia Lama" kepada "Projek Perintis" - Permulaan kepada Revolusi AI
Dengan perkembangan pesat teknologi kecerdasan buatan (AI), kita memasuki era baharu kemungkinan yang tidak terhingga. Walau bagaimanapun, dalam gelombang perubahan ini, kami menghadapi banyak cabaran, salah satunya ialah sistem pemarkahan model AI. Baru-baru ini, OpenAI melancarkan "Program Perintis OpenAI" untuk menambah baik kaedah pemarkahan semasa model AI, yang sudah pasti mendedahkan permulaan kepada revolusi AI untuk kita.
Dalam "dunia lama" semasa, terdapat banyak masalah dengan cara model AI dijaringkan. Penanda aras AI sedia ada adalah cacat dan tidak mencerminkan kes penggunaan dunia sebenar dengan tepat dan menilai prestasi model dengan berkesan dalam persekitaran dunia sebenar dan berisiko tinggi. Untuk menangani isu ini, Program Perintis OpenAI mencadangkan sistem penilaian baharu yang bertujuan untuk mencipta sistem penilaian yang "menetapkan standard kecemerlangan."
Latar belakang revolusi ini ialah penggunaan teknologi AI yang dipercepatkan dalam pelbagai industri. Untuk lebih memahami dan meningkatkan kesan AI dalam dunia nyata, OpenAI menekankan kepentingan mencipta metrik penilaian khusus domain. Dengan metrik ini, kami boleh mencerminkan kes penggunaan dunia sebenar dengan lebih realistik dan membantu pasukan menilai prestasi model dalam persekitaran berisiko tinggi dunia sebenar.
Kontroversi baru-baru ini telah menyerlahkan dilema sistem penggredan semasa. Kontroversi mengenai platform penanda aras penyumberan ramai LM Arena dan model Maverick Meta telah menunjukkan bahawa sukar untuk membezakan perbezaan antara model AI yang berbeza. Banyak penanda aras AI yang digunakan secara meluas menumpukan pada mengukur prestasi model pada beberapa tugas yang tidak jelas, mengabaikan aplikasi dunia sebenarnya. Terdapat juga penanda aras yang mudah dimanipulasi atau bertentangan dengan pilihan kebanyakan orang.
Untuk menangani isu ini, Program Perintis OpenAI akan memberi tumpuan kepada bekerjasama dengan berbilang syarikat untuk mereka bentuk penanda aras tersuai. Penanda aras ini akan menyediakan penilaian khusus industri untuk bidang tertentu seperti undang-undang, kewangan, insurans, penjagaan kesihatan dan perakaunan. Ujian ini bukan sahaja akan memberi tumpuan kepada metrik prestasi model, tetapi juga pada aplikasinya di dunia nyata untuk mencerminkan senario aplikasi sebenar dengan lebih baik.
Perlu diingat bahawa peserta pertama Program Perintis akan memberi tumpuan kepada syarikat permulaan. Syarikat-syarikat ini akan membantu meletakkan asas untuk program ini dan membawa inovasi dan idea baharu kepada komuniti AI. Syarikat permulaan ini akan dipilih daripada segelintir daripada ramai pemain yang mengusahakan kes penggunaan berasaskan luas bernilai tinggi di mana AI boleh memberi impak sebenar. Penyertaan syarikat permulaan ini akan memacu pembangunan Program Perintis dan membawa lebih banyak kemungkinan kepada komuniti AI.
Di samping itu, syarikat yang mengambil bahagian akan berpeluang untuk bekerjasama dengan pasukan OpenAI untuk menambah baik model mereka melalui teknik penalaan halus yang dipertingkatkan. Teknik ini mengoptimumkan model untuk set tugas tertentu, meningkatkan prestasinya dalam domain tertentu. Model kolaboratif ini akan membantu memacu pembangunan teknologi AI dan membawa faedah yang lebih besar kepada masyarakat secara keseluruhan.
Walau bagaimanapun, revolusi itu juga menimbulkan persoalan utama: adakah komuniti AI akan menerima penanda aras yang dicipta oleh yang dibiayai oleh OpenAI? Sejak beberapa tahun kebelakangan ini, OpenAI telah menyokong usaha penanda aras dari segi kewangan dan mereka bentuk metodologi penilaiannya sendiri. Walau bagaimanapun, bekerjasama dengan pelanggan untuk mengeluarkan ujian AI boleh dilihat sebagai kontroversi dari segi etika. Dalam hal ini, kita perlu terbuka dan telus untuk memastikan semua peserta memahami dan menghormati keadilan dan ketelusan proses.
Secara keseluruhan, "Program Perintis" OpenAI mendedahkan permulaan kepada revolusi AI untuk kami. Revolusi ini akan membentuk semula sistem pemarkahan model AI, beralih daripada "dunia lama" kepada sistem penilaian yang lebih adil, berkesan dan praktikal. Ini memerlukan kita bekerjasama untuk menghadapi era perubahan ini dengan sikap terbuka dan bekerjasama, dan bersama-sama mempromosikan pembangunan dan aplikasi teknologi AI.