Ghibli OpenAI, merempuh bekas pelatih yang disaman oleh Bytes kerana "meracuni AI"?
Dikemaskini pada: 35-0-0 0:0:0

Pengarang|Peti Mel MingguanSmile|zhouyixiao@pingwest.com

想像一下,耗費動畫大師宮崎駿數十年心血、一幀一畫精雕細琢的藝術風格——比如《起風了》中耗時一年多的四秒人群場景,或是《幽靈公主》里那個生物鑽地鏡頭背後一年零七個月的 5300 幀手繪,如今,在GPT-4o手中,似乎變得“唾手可得”。用戶們興奮地將個人照片、網路梗圖甚至歷史影像紛紛“一鍵吉卜力化”,其效果之逼真、風格之統一,迅速點燃了網路。無數人的時間線都被塞入了宮崎駿的平行宇宙。OpenAI CEO Sam Altman透露,4o的圖像生成功能在一小時內就吸引了百萬新使用者。

Tetapi jika anda fikir ia hanya OpenAI yang menggantikan DALL-E sebelumnya dengan model yang lebih kuat, anda mungkin mengabaikan gambaran penuh. Seorang netizen yang berminat menyatakan: "Ini bukan sekadar kemas kini produk – ini mungkin merupakan anjakan paradigma yang lengkap." OpenAI nampaknya menyelesaikan masalah yang telah lama melanda proses menjana imej AI yang telah menghalang pencipta.

Jadi, apakah senjata rahsia? OpenAI sendiri memberi petunjuk: kali ini penjanaan imej dibina terus ke dalam model GPT-4o, dan, tidak seperti DALL-E, Midjourney dan Stable Diffusion, yang menggunakan model resapan secara meluas, OpenAI menyatakan dalam kad model: "Tidak seperti DALL· Penjanaan imej 0o ialah model autoregresif yang dibenamkan secara asli dalam ChatGPT"

Adalah penting untuk ambil perhatian bahawa menggunakan idea autoregresi kepada penjanaan imej tidak unik kepada OpenAI. Malah, cara membuat model autoregresif yang pandai dalam ramalan jujukan memberikan permainan penuh kepada potensi mereka dalam bidang penglihatan sentiasa menjadi salah satu hala tuju yang cuba diatasi oleh penyelidik AI, bertujuan untuk mencari paradigma baharu yang berbeza daripada model resapan arus perdana.

Sebagai contoh, penyelidikan "Pemodelan Autoregresif Visual: Penjanaan Imej Berskala melalui Ramalan Skala Seterusnya", yang memenangi Anugerah Kertas Terbaik persidangan akademik teratas NeurIPS 2024, bukan sahaja mencadangkan kaedah VAR yang inovatif, Ia meningkatkan kualiti dan kecekapan model autoregresif dengan ketara dalam penjanaan imej, dan membuktikan buat kali pertama dalam eksperimen bahawa model autoregresif tulen seperti GPT mempunyai potensi untuk melepasi model Transformer resapan teratas pada masa itu dalam tugas penjanaan imej.

Kertas kerja itu ditulis bersama oleh penyelidik dari Universiti Peking dan ByteDance. Menambah lebih banyak topikal pada kertas yang sangat teknikal ialah identiti pengarang pertamanya, Tian Keyu, yang merupakan bekas pelatih bait yang telah menarik banyak perhatian kerana didakwa menyerang kluster latihan ByteDance dan menghadapi tuntutan besar.

Dengan cara yang tidak dijangka, pelatih "kandungan emas yang semakin meningkat" ini berkait rapat dengan penerokaan canggih penjanaan imej AI.

1

"Kebangkitan" Pengembalian Diri

Salah satu kunci kepada kejayaan GPT-4o dalam penjanaan imej ialah pendekatan autoregresif (AR) yang didakwa, yang sangat berbeza daripada model resapan arus perdana. Memahami perbezaan ini adalah penting untuk memahami potensi "anjakan paradigma" ini.

Model resapan, seperti Midjourney dan Stable Diffusion, adalah berdasarkan prinsip bermula daripada bunyi rawak, mempelajari pengedaran data untuk secara beransur-ansur denois, dan akhirnya menjana imej, yang kuat dalam menjana imej berkualiti tinggi dan realistik, tetapi selalunya kurang kelajuan, kos pengiraan dan pemahaman yang tepat tentang arahan kompleks, terutamanya pemaparan teks.

Model autoregresif meminjam daripada cara GPT memproses teks: meramalkan elemen seterusnya mengikut urutan. Pada imej, ini bermakna model membina imej lengkap langkah demi langkah berdasarkan bahagian yang telah dijana, seperti piksel atau tag imej. Secara teori, ini memberikan AR kelebihan pemahaman kontekstual, kawalan terperinci dan koheren. Walau bagaimanapun, kaedah AR tradisional mempunyai masalah kecekapan rendah dan terdedah kepada ralat, dan sukar untuk memadankan model resapan dari segi kesan untuk masa yang lama.

Dalam beberapa tahun kebelakangan ini, penyelidikan seperti Pemodelan Autoregresif Visual (VAR) dan Pemodelan Autoregresif Topeng (MAR) telah mula "membenarkan" AR. Inovasi seperti "ramalan skala seterusnya" (penjanaan kasar hingga halus) yang dicadangkan oleh VAR telah meningkatkan kualiti imej dan kecekapan penjanaan model AR dengan ketara, membuktikan bahawa laluan AR bukan sahaja boleh dilaksanakan, malah mempunyai potensi untuk melepasi model resapan. VAR dan kajian lain mungkin memberikan inspirasi teori untuk GPT-4o, dan amalan GPT-0o mengesahkan lagi kebolehlaksanaan model autoregresif dalam penjanaan visual, menjadikan AR membawa kepada kemungkinan "kebangkitan" dalam bidang penjanaan imej.

Jadi, bagaimanakah sebenarnya penjanaan imej GPT-4o berfungsi? OpenAI menekankan bahawa fungsi imejnya disepadukan secara asli ke dalam teras model, dan bukannya modul yang berdiri sendiri. Ini bermakna 0o boleh memanfaatkan sepenuhnya pemahaman bahasa yang berkuasa dan pengetahuan dunianya untuk membimbing penjanaan imej, membolehkan pemahaman kontekstual yang belum pernah berlaku sebelum ini dan keupayaan mengikut arahan – seperti melukis papan putih dengan tepat dengan formula tertentu. Penyepaduan mendalam ini adalah kunci kepada kesan 0o yang sangat baik.

Walau bagaimanapun, peta papan putih dalaman yang bocor (beranotasi dengan proses Transformer-> Diffusion) menimbulkan persoalan tentang autoregresi "tulen"nya, mungkin menggunakan seni bina hibrid: iaitu, menggunakan pemahaman AR untuk menjana perwakilan perantaraan, digabungkan dengan kelebihan penjanaan piksel Diffusion untuk mengeluarkan imej akhir. Spekulasi ini menunjukkan bahawa 4o mungkin telah menggabungkan yang terbaik daripada kedua-dua laluan untuk memintas kekurangan masing-masing. Walau bagaimanapun, tidak boleh diketepikan bahawa OpenAI sengaja mengaburkan fakta.

Memandangkan tiada laporan teknikal, butiran pelaksanaan khusus masih menjadi misteri, tetapi niat strategik OpenAI adalah jelas: pertama, untuk meletakkan prinsip autoregresif pada teras penjanaan imej model multimodal generasi akan datang; Yang kedua ialah bergantung pada model berskala ultra-besarnya untuk menyediakan kuasa pengkomputeran dan asas kecerdasan untuk semua ini. Tanpa mengira "resipi" teknikal terakhir, GPT-4o telah menolak autoregresi ke hadapan, yang berkemungkinan mengubah hala tuju masa depan penjanaan imej AI.

1

Jurang suhu antara China dan Amerika Syarikat

Kejayaan penjanaan imej GPT-4o telah membawa kepada fenomena yang patut diberi perhatian: sama ada model bahasa atau model video, syarikat China mengejar ketinggalan dengan cepat, tetapi apabila ia datang kepada penjanaan imej yang canggih, nampaknya ia sentiasa syarikat Amerika "bersolo" di barisan hadapan? Sama ada dari Midjourney ke Gemini Image hingga 0o, nampaknya tidak ada syarikat atau produk di China yang boleh "menanda aras" dengannya.

Kita boleh melihat "perbezaan suhu" ini dari perspektif teknikal dan komersial. Secara teknikal, syarikat terkemuka AS nampaknya lebih cenderung untuk meneroka dan bertaruh pada laluan baharu seperti autoregresi (AR) yang boleh membawa kepada revolusi paradigma, mungkin terima kasih kepada pelaburan jangka panjang mereka dalam penyelidikan asas dan toleransi yang lebih besar terhadap risiko. Model penjanaan imej autoregresif OpenAI, Image GPT, telah dilancarkan dalam 2020 tahun, bertujuan untuk menggunakan seni bina Transformer dalam pemprosesan bahasa semula jadi kepada bidang penjanaan imej.

Kuasa domestik mungkin lebih tertumpu pada mengoptimumkan laluan Resapan matang dan menggunakannya dengan cepat, yang sangat berkesan dalam peringkat mengejar, tetapi ia juga boleh membawa pergantungan laluan tertentu. Pada masa yang sama, kuasa pengkomputeran, data berkualiti tinggi dan inovasi algoritma teras yang diperlukan untuk model terkemuka itu sendiri merupakan halangan yang ketara. Terdapat pandangan bahawa model Diffusion mungkin telah mencapai kesesakan dan perlu dipecahkan dengan segera.

Secara komersial, kedudukan pasaran dan model pengewangan juga telah membentuk arah pembangunan yang berbeza. Midjourney, GPT-4o, dsb., nampaknya lebih ditujukan kepada pengguna profesional yang memerlukan kesan muktamad atau pasaran dengan kesediaan yang kuat untuk membayar, berusaha untuk mencipta alat "meletup" dan mengenakan bayaran secara langsung. Senario aplikasi besar China (e-dagang, rangkaian sosial, pemasaran, dll.) mungkin lebih menjimatkan kos, cekap dan bersepadu dengan ekosistem sedia ada, mendorong pembangunan teknologi menjadi lebih berat sebelah ke arah pengoptimuman kejuruteraan dan pemerkasaan platform, dan bukannya penerokaan melampau satu alat. Jurang ini juga diburukkan lagi oleh keutamaan modal dan strategi integrasi ekologi yang berbeza.

Sudah tentu, ini bukan untuk mengatakan bahawa China tidak mencapai pencapaian dalam bidang biografi. Syarikat seperti Alibaba, Byte dan DeepSeek juga terus melancarkan model yang kompetitif. Cuma pada tahap "model letupan" global, syarikat Amerika memimpin buat sementara waktu.

Pada penghujung hari, sinergi teknologi dan perniagaan membentuk landskap semasa. Dengan gelombang regresi kendiri baharu yang mungkin dipimpin oleh GPT-4o, kami sudah pasti tidak sabar untuk melihat kemajuan sumber terbuka ke arah ini, atau susulan dan pelaksanaan pesat perusahaan China.

Klik pada "cinta" dan mari kita pergi

Seperti

Berkongsi

Popular

Komen