Tajuk: Pembantu AI baharu Google mengejutkan: Mengintegrasikan model Gemini dan Veo, pembantu serba boleh menumbangkan imaginasi
Dengan perkembangan pesat teknologi kecerdasan buatan, Demis Hassabis, Ketua Pegawai Eksekutif Google DeepMind, mendedahkan bahawa Google merancang untuk menyepadukan model Gemini AI dengan model penjanaan video Veo untuk meningkatkan pemahaman Gemini tentang dunia fizikal. Berita ini telah mencetuskan banyak perhatian dalam industri, kerana penumpuan ini akan membawa pembantu AI baharu yang dijangka mengganggu kehidupan seharian kita.
Mula-mula, mari kita lihat model Gemini dan Veo. Gemini ialah model multimodal yang memahami dan menyepadukan berbilang format media, termasuk imej, teks, audio dan banyak lagi. Ia direka bentuk untuk menjadi pembantu digital tujuan umum yang benar-benar boleh membantu pengguna di dunia nyata. Veo, sebaliknya, ialah model penjanaan video yang boleh menjana kandungan video berkualiti tinggi. Dengan menggabungkan kedua-dua model ini, Google dijangka mencipta pembantu semua-dalam-satu yang boleh memahami dan memproses semua bentuk data untuk menyediakan pengguna dengan perkhidmatan yang lebih komprehensif dan diperibadikan.
Pada masa ini, keseluruhan industri AI sedang bergerak ke arah model "semua-dalam-satu". Model ini bukan sahaja mampu memahami dan menyepadukan pelbagai bentuk media, tetapi juga membolehkan kognisi dan membuat keputusan yang lebih maju. Sebagai contoh, model Gemini terbaharu Google boleh menjana bukan sahaja imej dan teks, tetapi juga audio; Dan model lalai OpenAI dalam ChatGPT kini juga mampu mencipta imej, termasuk karya seni gaya Miyazaki. Amazon juga telah mengumumkan rancangan untuk melancarkan model "mana-mana-ke-mana-mana" akhir tahun ini. Trend ini menunjukkan bahawa pembantu AI akan menjadi lebih pintar dan komprehensif pada masa hadapan.
Untuk mencapai matlamat ini, Google memerlukan banyak data latihan. Data ini bukan sahaja termasuk bentuk media seperti imej, video, audio dan teks, tetapi juga perlu merangkumi pelbagai bidang dan senario. Hassabis membayangkan bahawa data video Veo datang terutamanya daripada platform YouTube Google. "Dengan menonton banyak video YouTube, Veo 2 dapat memahami fizik dunia," katanya. Sebelum ini, Google juga telah memberitahu TechCrunch bahawa modelnya boleh dilatih dengan "bahagian" kandungan YouTube di bawah perjanjian dengan pencipta YouTube. Syarikat itu dilaporkan memperluaskan sebahagian daripada syarat perkhidmatannya tahun lepas untuk mendapatkan lebih banyak data untuk melatih model AInya.
Sebagai tambahan kepada sejumlah besar data latihan, Google juga memerlukan kuasa pengkomputeran dan algoritma yang berkuasa untuk melatih model AI berkualiti tinggi. Untuk tujuan ini, Google terus melabur dalam R&D dan mengukuhkan kerjasama dengan institusi akademik dan perusahaan terkemuka dunia untuk meningkatkan prestasi dan keupayaan generalisasi model.
Walau bagaimanapun, walaupun kemajuan luar biasa Google dalam teknologi AI, kita tidak boleh mengabaikan risiko dan cabaran yang mungkin wujud di dalamnya. Dengan penggunaan teknologi AI yang meluas, beberapa isu yang tidak dapat diramalkan mungkin timbul, seperti privasi data, isu keselamatan, etika, dsb. Oleh itu, kita perlu mewujudkan mekanisme kawal selia yang kukuh dan garis panduan etika untuk memastikan pembangunan teknologi AI selaras dengan nilai dan kepentingan manusia.
Secara keseluruhan, kejutan pembantu AI baharu Google akan membawa kita pengalaman baharu. Dengan menggabungkan model Gemini dan Veo, ia akan menjadi pembantu semua-dalam-satu yang akan menyediakan pengguna dengan perkhidmatan yang lebih komprehensif dan diperibadikan. Walau bagaimanapun, kita juga perlu memberi perhatian kepada risiko dan cabaran yang mungkin wujud dan mengambil langkah untuk menanganinya. Masa depan tergolong dalam bidang kecerdasan buatan, yang sentiasa berinovasi dan berdaya usaha, jadi mari kita tunggu dan lihat prestasi hebat revolusi saintifik dan teknologi ini!