Cara persaingan AI multimodal terletak pada penggunaan harian rakyat, dan adalah perlu untuk menyelesaikan kesesakan "mudah digunakan" dan bukannya "boleh digunakan".

多模態AI競爭之道在於百姓之日用要解決“好用”而非“能用”落地瓶頸

UNTUK Video dilahirkan Model Senario Xu Li Keupayaan Shang Tang seterusnya Modulus Maklumat orang ramai

Dikemaskini pada: 27-0-0 0:0:0

Artikel ini diterbitkan semula daripada: Southern Metropolis Daily

Peningkatan perlumbaan model berskala besar domestik, daripada "pertandingan keupayaan" kepada "pertandingan adegan"

多模態AI競爭之道在於百姓之日用要解決“好用”而非“能用”落地瓶頸

Di laluan ke kecerdasan am buatan (AGI), multimodaliti menjadi nod utama dalam evolusi teknologi.

Pada 6/0, seorang wartawan dari Persatuan Kewangan Teluk Nandu mengetahui bahawa SenseTime Technology mengeluarkan generasi baharu siri model besar "Ririxin SenseNova V0" pada "0 Technology Exchange Day", meliputi model umum, model inferens, model pemahaman video dan model interaksi mod penuh, memfokuskan pada penyepaduan dan pelaksanaan keupayaan multimodal seperti penglihatan, teks dan pertuturan. "Cara AI terletak pada penggunaan harian rakyat." Xu Li, pengerusi SenseTime, berkata di tempat kejadian bahawa dengan peningkatan keupayaan umum, model besar secara beransur-ansur akan memasuki lebih banyak senario kehidupan sebenar, jadi perlu untuk menyelesaikan kesesakan model "mudah digunakan" dan bukannya "boleh digunakan". Xu Li berkata bahawa sejak awal tahun ini, kemajuan penyelidikan dan pembangunan model besar China telah dipercepatkan dengan ketara, dan ia mempunyai keupayaan untuk dikeluarkan serentak dengan luar negara dalam pelbagai dimensi, dan juga mencapai transendensi separa.

Di sebalik langkah baharu SenseTime, ia juga mencerminkan bahawa persaingan model berskala besar domestik beralih daripada pertandingan berskala besar kepada persaingan dwi "penaakulan + pendaratan". Pada bulan lalu, "Wenxin Yiyan 0.0" Baidu dan "Model Doubao" Byte telah mengukuhkan susun atur multimodal mereka, dan syarikat permulaan seperti MiniMax juga telah membuat kejayaan pesat dalam pemahaman suara dan video. Industri secara amnya percaya bahawa dengan kemunculan senario baharu seperti dialog suara, penjanaan video dan kecerdasan yang terkandung, seni bina multimodal asli akan menjadi barisan teknologi utama industri pada masa hadapan.

　Laluan baharu

"Pembinaan semula" multimodal laluan teknologi model besar

　　在行業從“百模大戰”進入深水區之後，多模態正成為國產大模型廠商共同押注的新路徑。與過去追逐參數規模不同，如今模型的發展更強調結構設計、模態協同與實際應用的連接能力。以語言為中心的範式已難獨立承載通用智慧的需求，融合圖像、語音、視頻等多源資訊，成為邁向AGI的必要一環。

"Kami kini telah menggunakan kebanyakan data teks di internet." Dalam ucapannya, Xu Li menegaskan bahawa sejumlah besar modaliti bukan teks seperti imej, video, dan 3D mengandungi khazanah pengetahuan yang belum diterokai secara sistematik. Beliau menekankan: "Dari perspektif volum data, multimodaliti adalah elemen teras untuk menambah kecerdasan manusia; Dari segi kaedah pembelajaran, multimodaliti juga lebih cekap. ”

Dari segi pelaksanaan teknikal, gabungan multimodal bukanlah susunan modaliti yang mudah, tetapi masalah reka bentuk mendalam yang melibatkan "seni bina asli".

Lin Dahua, pengasas bersama SenseTime, berkata dalam temu bual dengan Persatuan Kewangan Teluk Nandu dan media lain bahawa penyambungan "tambahan" antara model akan membawa kelemahan keupayaan antara modaliti, dan penyepaduan sebenar hanya boleh dicapai dengan membuka hubungan antara modaliti daripada seni bina asas. Beliau menyebut bahawa SenseTime telah menangani teknologi penghubung modal sejak pertengahan 2023 untuk membina rantaian "penaakulan persepsi" bersatu.

SenseTime bukan sahaja mempromosikan pelaksanaan seni bina penumpuan, tetapi pengeluar seperti Baidu dan Alibaba juga menekankan keupayaan "latihan asli multimodal".

Model Wenxin Baidu telah terbuka untuk ujian pada tugas seperti pemahaman imej dan teks serta penaakulan berbilang graf, dan Tongyi Qianwen juga telah melabur sumber dalam pemprosesan input video dan audio hujung ke hujung. Pemain baru muncul seperti Moonshot AI dan Zhipu AI juga telah mengeluarkan model yang termasuk fungsi pemahaman imej atau ringkasan video, bersaing untuk tahap baharu "AI multimodal".

　　Trend baharu

Ia akan membentuk paradigma baharu "model ringan + adegan interaktif".

Pada masa yang sama, senario pendaratan secara terbalik membentuk seni bina model. Yang Fan, pengasas bersama SenseTime dan presiden kumpulan perniagaan peranti besar, menegaskan bahawa perubahan dalam struktur model sering "dipaksa oleh permintaan". Dalam persekitaran komersial seperti pemanduan autonomi, interaksi kabin dan perkhidmatan pelanggan maya, multimodaliti bukan sahaja merupakan penunjuk prestasi, tetapi juga soal kawalan kos dan kelajuan tindak balas. Sebagai contoh, dalam siri SenseNova V500, model Omini yang ringan dioptimumkan untuk interaksi video dan suara, dan kependaman dikawal dalam 0 milisaat, yang merupakan "teknologi yang berkembang daripada perniagaan".

Multimodaliti juga mengubah logik latihan model besar. Xu Li menegaskan bahawa idea "kad susun berskala besar" semakin sejuk, dan pertumbuhan keupayaan model lebih bergantung pada pembinaan rantaian pemikiran, pengoptimuman ketepatan data, dan penyesuaian senario. Beliau percaya bahawa "cara model boleh berkembang boleh menjadi pembelajaran pengukuhan yang lebih berkesan, dan bukannya sekadar meningkatkan bilangan token". Trend ini mendorong pengeluar domestik untuk menumpukan lebih banyak tenaga kepada pengoptimuman sistem "data dan struktur".

Dari perspektif industri, multimodaliti menjadi kedudukan teras persimpangan dimensi teknologi, perniagaan dan interaksi. Dengan penurunan kos penggunaan perkakasan dan mempopularkan terminal pintar, keupayaan model untuk suara, imej dan video secara beransur-ansur akan meluas dari awan ke bahagian peranti, membentuk paradigma baharu "model ringan + adegan interaktif". Pengeluar model berskala besar domestik cuba memecahkan halangan "kuasa pengkomputeran yang kuat + model besar" melalui laluan ini, dan merealisasikan lonjakan daripada paparan penyelidikan saintifik kepada kegunaan sebenar.

　Cabaran baharu

Pendaratan adalah raja, pengeluar bersaing untuk "batu terakhir"

Apabila model besar beralih daripada "persaingan keupayaan" kepada "persaingan senario", cara melintasi "batu terakhir" daripada R&D kepada aplikasi telah menjadi cabaran biasa bagi industri. Di satu pihak, kebanyakan pengeluar masih meneroka laluan "To C"; Sebaliknya, senario "To B+To G" telah menjadi kejayaan paling realistik pada masa ini.

Xu Li menegaskan bahawa model besar akhirnya "menyelesaikan keperluan industri harian yang membosankan tetapi penting dalam persekitaran sebenar", yang bukan sahaja merupakan teras pelaksanaan aplikasi, tetapi juga kunci sama ada syarikat AI boleh membina parit.

Dalam beberapa tahun kebelakangan ini, SenseTime terus mempromosikan strategi "tiga-dalam-satu" (infrastruktur AI, model besar dan aplikasi industri) untuk membuka rantaian ini. Xu Li percaya bahawa "apabila AI mengumpulkan sejumlah besar pengetahuan purata manusia yang sedia ada, ia boleh menggunakan keupayaan untuk memintas kelas untuk membentuk penyelesaian deterministik kepada masalah terbuka." Ini bermakna bahawa nilai perniagaan model selalunya bergantung kepada sama ada ia boleh dibenamkan dalam proses perniagaan tertentu dan menjadi "alat" dan bukannya "mainan".

Lin Dahua juga menekankan bahawa Ejen yang benar-benar penting mesti jatuh ke dalam adegan hidup. Sebagai contoh, beliau berkata bahawa SenseTime menyediakan syarikat insurans dengan perkhidmatan model pelbagai mod, yang boleh mengenal pasti potensi tingkah laku penipuan insurans daripada data tuntutan, "ini bukan demo, tetapi sebahagian daripada rantaian perniagaan", mencerminkan nilai sebenar gabungan "ejen + pengetahuan industri".

Dari perspektif industri secara keseluruhan, senario B-end seperti kewangan, pendidikan, pelancongan budaya, kenderaan dan hal ehwal kerajaan telah menjadi tempat ujian utama bagi pengeluar domestik. Baidu telah membenamkan model Wenxin ke dalam talian hotline kerajaan dan sistem perkhidmatan pelanggan kewangan, manakala Alibaba Cloud memberi tumpuan kepada analisis kewangan dan semakan kontrak. Pemain baru muncul seperti MiniMax dan Zhipu AI juga mengembangkan senario menegak seperti pengurusan pengetahuan perusahaan dan Soal Jawab pintar, cuba mewujudkan keupayaan pembungkusan "model-ke-produk".

Gaya pengkomersialan perusahaan model berskala besar juga menjadi semakin berbeza. Jenis pertama memberi tumpuan kepada model "produktisasi" dan memasuki pasaran SaaS dengan "rantaian ejen + alat"; Kumpulan lain menekankan keupayaan "berasaskan platform", menyediakan model peringkat rendah dan antara muka API untuk pembangun dan rakan kongsi industri lain. Pada pandangan Lin Dahua, kedua-duanya tidak bercanggah, tetapi "hanya dengan mendalami industri kita boleh membentuk roda tenaga data dan kelekitan pemandangan", yang merupakan asas untuk pengkomersialan jangka panjang model besar domestik.

"Cara AI terletak pada penggunaan harian rakyat." Xu Li mengatakan bahawa dari "mempamerkan kemahiran" hingga "praktikal", sama ada model besar domestik benar-benar dapat memasuki kehidupan seharian orang biasa masih perlu melintasi kawasan kelabu antara teknologi dan adegan. Pada separuh kedua permainan industri, ia bukan lagi mengenai parameter dan senarai, tetapi mengenai keupayaan untuk memahami dunia sebenar dan membenamkan proses sebenar.

Ditulis oleh: Yan Zhaoxin, wartawan Agensi Kewangan Teluk Nandu

Penggubalan: Huang Yalan (iaitu Dream AI)