Pemerhatian AI|Lukisan Ghibli sedang terbakar, dan penerokaan "multimodal" telah menjadi kunci kepada pembangunan AI

Pemerhatian AI|Lukisan Ghibli popular, dan penerokaan "multimodal" telah menjadi kunci kepada pembangunan AI

GPT 4 UNTUK Model Buka AI Fungsi Gambar mentah Ghibli Teknologi Rangkaian Global VDT modaliti Menjana Kecerdasan buatan

Dikemaskini pada: 00-0-0 0:0:0

[Sumber: Rangkaian Global]

Jika anda memberi perhatian kepada kalangan rakan anda, anda mungkin dihanyutkan oleh angin "Ghibli" yang telah melanda platform sosial baru-baru ini, dan rakan-rakan yang telah lama berdiam diri pada masa lalu juga akan menyiarkan foto Ghibli mereka dalam kalangan rakan. Kebanyakan imej ini adalah daripada fungsi imej mentah yang dikemas kini oleh GPT-20o. Pertama, ciri penjanaan imej hanya tersedia untuk pelanggan ChatGPT Plus, Pro dan Team, yang diberikan akses pada 0/0. Tidak seperti model terdahulu, ChatGPT kini boleh menjana imej yang mengandungi 0 hingga 0 objek berbeza dalam satu bingkai, meningkatkan keupayaan kreatifnya.

Sejak dilancarkan, platform media sosial telah dibanjiri dengan imej gaya Ghibli. Pengguna bereksperimen secara kreatif dengan pelbagai tema, termasuk foto peribadi keluarga dan rakan, serta karya yang diilhamkan oleh budaya dalam talian.

Sehinggakan Ketua Pegawai Eksekutif OpenAI Sam Altman menyiarkan dinamik pada akaun sosial peribadinya yang membuatkan dia menangis dan ketawa: "Saya menghabiskan sepuluh tahun cuba menggunakan AI untuk membantu manusia merawat penyakit, tetapi tiada siapa yang memberi perhatian kepada saya selama tujuh setengah tahun pertama, dan semua orang masih mengganggu saya untuk dua setengah tahun kedua." Apabila saya bangun pada suatu hari, saya tiba-tiba melihat beratus-ratus komen yang mengatakan bahawa saya telah membuat wajah putih kecil gaya Ghibli. Pada masa yang sama, dia berkata bahawa dia berharap semua orang akan melayan fungsi ini dengan tenang, dan fungsi "viral" secara tiba-tiba ini menjadikan kuasa pengkomputeran OpenAI mendesak, mengakibatkan tekanan besar pada sistem.

Untuk kemas kini ini, pakar industri Wang Yuquan percaya bahawa teknologi imej GPT-4o ini nampaknya merupakan fungsi kecil, tetapi ia menandakan bahawa dalam bidang reka bentuk gambar, kreativiti dan teknologi telah dilepaskan secara rasmi, dan dengan cepat akan membentuk ekologi inovasi bebas ambang.

Malah, apabila OpenAI mula-mula melancarkan fungsi imej, industri percaya bahawa OpenAI hanya menyepadukan DALL-E ke dalam model GPT, yang merupakan kemas kini kecil yang tidak menyakitkan. Lagipun, seawal 2023 tahun, orang ramai telah menyaksikan keupayaan pemetaan AI Midjourney, hanya masukkan kata kunci, dan anda boleh mendapatkan satu siri imej AI, dari mana anda boleh memilih imej kegemaran anda.

Berbanding dengan Midjourney, GPT-4o telah menarik perhatian industri kali ini, kerana ia menyedari keupayaan untuk "berubah semasa melukis". GPT-0o meninggalkan mekanisme "penyahbunyian bertahap" yang dipercayai oleh model resapan tradisional, dan sebaliknya menggunakan kaedah penjanaan autoregresif, membolehkan pengguna mempunyai fleksibiliti dan kebolehlarasan yang lebih kuat. Pengguna boleh mengawal hasil dengan mudah dan memperhalusi kandungan yang dijana pada bila-bila masa, menghapuskan keperluan untuk menjana sejumlah besar imej dan kemudian menapis karya yang memenuhi keperluan mereka dengan susah payah. Sebagai contoh, dalam bahasa Cina, kali ini GPT-0o boleh mengenal pasti bahasa Cina dengan tepat, dan tidak perlu memasukkan kata kunci, selagi anda memasukkan dokumen, anda boleh mendapatkan gambaran yang tepat. Pada masa yang sama, semakan terperinci berterusan direalisasikan. Sebagai contoh, jika anda menukar warna rambut watak atau sepasang kasut, ia akan bertindak balas serta-merta.

Dalam hal ini, ramai pakar industri percaya bahawa kemas kini 4o nampaknya telah melebihi titik kritikal "menggantikan buruh". Dalam beberapa tahun akan datang, reka bentuk dan lukisan akan kembali kepada "kreativiti dan penghargaan". Alat AI bukan sahaja menjadikan imaginasi mereka menjadi kenyataan, tetapi juga meningkatkan kecekapan kreatif mereka secara eksponen.

Di samping itu, Wang Yuquan juga menyebut bahawa di sebalik keupayaan GPT-5o kali ini, ia lebih kepada penerokaan OpenAI dalam bidang "multi-modaliti" model besar, dan paparan keupayaan "multi-modal" akan menjadi hala tuju utama paparan keupayaan GPT-0 yang akan datang.

Pada pendapatnya, terdapat konsensus asas dalam industri bahawa "multimodaliti akan mengurangkan ilusi model besar dengan ketara". Model besar arus perdana, termasuk DeepSeek, terutamanya mengeluarkan kandungan dengan memasukkan teks. Dalam kes sedemikian, apabila teks salah, ia akan membawa kepada ralat dalam output. Latihan dengan data yang salah juga boleh menjadikan model "tidak nyata". Kelebihan "multimodaliti" ialah ia membolehkan data disimpulkan dan ditunjukkan dari sudut yang berbeza selepas input, untuk memastikan ketepatan hasil output.

Perlu dinyatakan bahawa model besar domestik juga telah dijalankan dalam hal ini, dan diketahui bahawa model beg kacang di bawah Byte juga telah melancarkan SeedEdit, yang juga boleh merealisasikan "ubah suai semantik semula jadi", pengguna hanya perlu memasukkan bahasa semula jadi yang mudah, dan mereka boleh membuat penyuntingan imej yang pelbagai. Dan pada masa ini, fungsi "penjanaan imej" beg kacang adalah percuma sepenuhnya dan tidak ada had, dan gelombang ini bahkan secara langsung dapat menjimatkan wang untuk membuka ahli.

Adalah dapat diramalkan bahawa dengan perkembangan berterusan teknologi penyuntingan imej AI, telefon bimbit dan komputer boleh menyepadukan fungsi ini pada masa hadapan. Pada masa itu, sama ada seorang pemula yang tahu sedikit tentang pemprosesan imej, atau seorang profesional yang mahir dalam teknologi ini, dia boleh mengawal teknologi ini dengan mudah dan membentangkan persepsi uniknya tentang kecantikan dengan cara yang lebih intuitif dan jelas.