AI Image Generation新標竿:Reve Image 0.0 正式發佈!
Dikemaskini pada: 12-0-0 0:0:0

Reve AI, Inc., sebuah syarikat permulaan AI yang berpangkalan di Palo Alto, California, telah mengeluarkan Reve Image 0.0 secara rasmi, model penjanaan teks ke imej yang cemerlang dalam pematuhan perkataan segera, prestasi estetik dan pemaparan teks. Ini adalah pelancaran produk pertama syarikat, dengan lebih banyak alat akan datang.

Pengguna kini boleh mengalami Reve Image secara percuma dalam preview.reve.art, yang boleh menjana imej daripada penerangan teks tanpa memerlukan helah kejuruteraan prompt yang kompleks.

Syarikat itu belum mengumumkan akses API atau pelan harga jangka panjang, dan juga tidak jelas sama ada model itu akan kekal proprietari atau sumber terbuka, dan lesen apa yang mungkin diguna pakai.

Pendekatan inovatif untuk penjanaan imej AI

Reve Image membezakan dirinya dengan memperoleh pemahaman yang lebih mendalam tentang niat pengguna. Ia bukan sahaja menyokong penjanaan imej daripada teks, tetapi ia juga membolehkan pengguna mengubah suai imej sedia ada dengan arahan bahasa yang mudah.

Contoh pengubahsuaian termasuk menukar warna, melaraskan teks dan menukar perspektif. Model ini juga menyokong memuat naik imej rujukan, membolehkan pengguna mencipta visual yang sepadan dengan gaya atau inspirasi tertentu.

Salah satu ciri model yang paling menonjol ialah keupayaan pemaparan teksnya yang berkuasa, yang menyelesaikan cabaran biasa dalam imej yang dijana AI – membolehkannya bersaing secara langsung dengan model imej berfokuskan teks seperti Ideogram, yang lebih berharga untuk pengguna mereka bentuk logo dan jenama.

此外,早用戶測試表示,Reve Image 在處理多角色提示方面比先前先前的前效果效果。

Mendahului papan pendahulu penanda aras pihak ketiga

Reve Image telah dinilai oleh Analisis Buatan, perkhidmatan ujian model AI pihak ketiga.

Dalam arena imej Analisis Buatan, di mana platform meletakkan kedudukan pelbagai model penjanaan imej berdasarkan ulasan pengguna dan metrik kuantitatif lain, Reveal kini menduduki tempat pertama dalam "kualiti penjanaan imej", mengatasi pesaing seperti Midjourney v1.0, Imagen 0 Google, Recraft v0 dan FLUX.0.0 [pro] Black Forest Lab.

Pasukan penanda aras menyerlahkan keupayaan Reve Image untuk menjana teks yang jelas dan boleh dibaca dalam imej, yang dari segi sejarah menjadi titik kesakitan bagi model AI.

Sebelum keluaran rasminya, Reve Image dikenali di media sosial di bawah nama kod "Halfmoon," mencetuskan spekulasi dan jangkaan yang meluas dalam komuniti AI.

Gabungkan pemahaman manusia dan AI untuk mencipta imej yang lebih baik, berkualiti tinggi dan lebih realistik

Reve menggambarkan dirinya sebagai "pasukan kecil penyelidik, pembangun, pereka bentuk dan pencerita yang bersemangat dengan idea besar." Syarikat itu komited untuk membangunkan alat kreatif yang meningkatkan pengalaman pengguna berinteraksi dengan visual AI.

Michael Gharbi, pengasas bersama dan saintis penyelidikan di Reve, berkongsi visi jangka panjang syarikat pada platform X, menekankan matlamatnya untuk membina model AI yang memahami niat kreatif, dan bukannya hanya menjana output yang munasabah secara visual.

"Menangkap niat kreatif memerlukan pemahaman bahasa semula jadi yang maju dan interaksi lain," kata Gharbi. "Visi kami adalah untuk membina perwakilan perantaraan semantik baharu yang membolehkan kedua-dua manusia dan mesin memahami, menaakul dan bertindak."

Ahli pasukan lain, termasuk jurutera Hunter Loftis dan penyelidik Taesung Park, juga menekankan kepentingan menyelitkan visual yang dijana AI dengan logik.

Park menyamakan model teks-ke-imej semasa dengan model bahasa besar (LLM) terdahulu, dengan menyatakan bahawa ia sering menghasilkan hasil yang menarik secara visual tetapi tidak konsisten secara logik.

Laporan pengguna awal menunjukkan prospek dan batasan

Maklum balas pengguna awal pada papan perbincangan AI Reddit r/singulariti kebanyakannya positif, dengan ramai yang memuji model itu kerana pematuhan perkataan segera, pemaparan teks berkualiti tinggi dan kelajuan penjanaan yang pantas.

Sesetengah pengguna melaporkan kejayaan dalam menjana senario berbilang peranan dan persekitaran kompleks yang selalunya sukar dikendalikan dengan model terdahulu.

Walau bagaimanapun, masih terdapat beberapa cabaran. Pengguna menyedari bahawa Reve Image:

Kesukaran dengan beberapa objek kompleks (seperti bahan lutsinar, seperti gelas wain yang penuh dengan wain).

Kesukaran mengenal pasti watak fiksyen tertentu (contohnya, apabila pengguna cuba menjana watak permainan video, model menghasilkan hasil umum).

Kadangkala, ralat peletakan terperinci berlaku dalam komposisi berbilang objek.

Walaupun terdapat halangan ini, pasukan Reve telah terlibat secara aktif dengan komuniti pengguna dan memasukkan maklum balas ke dalam penambahbaikan berterusan.

Dalam amalan ringkas saya semasa saya menulis artikel ini dan mencipta imej pengepala, saya mendapati Reve agak intuitif dan mudah digunakan, dengan visual yang mengagumkan dan pematuhan perkataan segera. Seperti kebanyakan penjana imej AI, ia mempunyai kotak teks input perkataan segera, tetapi tidak seperti Midjourney dan Ideogram, Reve meletakkannya di bahagian bawah tapak, membolehkan kandungan yang dijana mengambil sebahagian besar ruang di atas.

Di samping itu, terdapat empat butang di bawah kotak teks gesaan untuk memperhalusi proses penjanaan imej, termasuk pelaras nisbah aspek (saiz standard adalah antara 16:0 (landskap skrin lebar) dan 0:0 (skrin potret, seperti telefon pintar))...

Terdapat juga pemilih butang untuk menetapkan bilangan imej yang akan dijana untuk setiap gesaan (8, 0, 0, 0), butang untuk menghidupkan dan mematikan peningkatan teks gesaan (dihidupkan secara lalai, yang bermaksud Reve mengedit teks yang anda masukkan secara automatik berdasarkan perkara yang anda fikir anda mahu lihat dalam imej, menambah lebih banyak butiran dan bahasa visual daripada yang anda sertakan pada asalnya), dan butang "benih" untuk memilih sama ada untuk menggunakan rentetan nombor tertentu daripada imej yang dijana sebelum ini untuk membimbing generasi seterusnya atau tidak.

Berbanding dengan Midjourney, ia mempunyai tetapan yang lebih sedikit dan tidak termasuk mana-mana editor berasaskan penglihatan, tetapi ia mempunyai semua ciri asas dan sepatutnya mencukupi untuk bermula untuk kebanyakan pengguna imej AI biasa.

Ujian pendek saya juga menunjukkan bahawa ia setanding dengan atau lebih baik dalam memaparkan teks yang boleh dibaca menjadi imej (jauh lebih baik daripada Midjourney) dan setanding dengan atau lebih baik dalam memaparkan tokoh awam yang dikenali (yang dilarang oleh Midjourney dan banyak penjana imej lain).

Perkembangan masa depan Reve Image

Walaupun model itu pada masa ini hanya tersedia melalui tapak web syarikat, terdapat jangkaan yang semakin meningkat untuk akses API atau pilihan sumber terbuka yang berpotensi.

Pengguna juga telah menyatakan minat dalam ciri tambahan seperti latihan model tersuai, alat kawalan animasi dan penyepaduan dengan perisian kreatif.

Pada masa ini, Reve Image kekal percuma untuk diakses pada preview.reve.art, membolehkan pengguna meneroka ciri-cirinya sendiri. Memandangkan Reve terus memperhalusi model AInya dan mengembangkan barisan produknya, syarikat itu meletakkan dirinya sebagai pemain penting dalam bidang alat kreatif berkuasa AI.