গুগল মিথুন অডিও এবং ভিডিও স্বীকৃতি পরীক্ষা! সাবটাইটেল গ্রুপের আর দরকার নেই?
এই তারিখে আপডেট করা হয়েছে: 51-0-0 0:0:0

【本文由小黑盒作者@Duke486於03月30日發佈,未經許可不得轉載!】

Gemini 5.0 Pro 是啥

谷歌在前幾天(25年3月25號)發佈了 Gemini 2.5 Pro 模型,綜合排名世界第一,號稱有百萬上下文,後期將會開放 200 萬上下文。最大輸出長度約為 6 萬 token。

এটি প্রথম চালু হওয়ার সময় আমি কোড এবং গদ্য লেখার দিকে দ্রুত নজর রেখেছিলাম এবং এতে কোনও সন্দেহ নেই যে আমার ব্যক্তিগত অভিজ্ঞতার পরিপ্রেক্ষিতে, মিথুন 7.0 প্রো সেখানে সবচেয়ে শক্তিশালী। বিশেষত, নিবন্ধটির লেখাটি সুসংগত এবং শব্দটি যুক্তিসঙ্গত, যেমন ডিপসিক আর 0 এবং ক্লড 0.0 চিন্তাভাবনার মতো চিন্তাভাবনা মডেলগুলির বিপরীতে, যা অত্যধিক আত্ম-সচেতনতা এবং নিবন্ধে চিত্রাবলী এবং অলঙ্কারশাস্ত্রের স্তূপের দিকে পরিচালিত করবে।

কিন্তু সেটা এই লেখার বিষয় নয়। আজ আমি ইন্টারনেটে কেউ 5.0 প্রো দিয়ে একটি বহুভাষিক ভিডিও প্রক্রিয়া করতে পারে তার একটি প্রদর্শন দেখেছি, তাই আমি পরীক্ষা করতে চেয়েছিলাম যে মিথুন অডিও এবং ভিডিও কতটা ভাল বোঝে এবং এটি কতক্ষণ পরিচালনা করতে পারে।

গুগল এআই স্টুডিও ওয়েবসাইটটি প্রত্যেকের ব্যবহারের জন্য বিনামূল্যে তৈরি করেছে এবং আমি অবিলম্বে এটি পরীক্ষা শুরু করি। আমি ফলাফল দ্বারা উড়ে গিয়েছিলাম, বিশেষ করে পরীক্ষা 4: সাবটাইটেল সহ এনিমে!

বিষয়বস্তু পরীক্ষা করুন

পরীক্ষাটি মূলত নিম্নলিখিত দিকগুলিতে ফোকাস করে: অডিও সামগ্রী স্বীকৃতি, অডিও এবং ভিডিও টাইমলাইন, ভিডিও সামগ্রী বোঝা, অডিও এবং ভিডিও প্রসঙ্গ সমন্বয় বোঝা, শব্দ প্রভাব এবং সঙ্গীত এবং অন্যান্য উপাদান স্বীকৃতি।

দেখার জন্য খুব দীর্ঘ, উপসংহার: চীনা গান এবং চতুর থিমগুলি (সঠিক শব্দ নরকের অ্যানিমেশন, উচ্চারণ ভিডিও যা মানুষের পক্ষে বোঝা কঠিন) ব্যতীত, মিথুন অপরাজেয় এবং পুরোপুরি ভিডিওগুলি সাবটাইটেল করতে পারে!

আমি নিম্নলিখিত কাজগুলি প্রস্তুত করেছি, সুতরাং আসুন ঘুরে ফলাফলগুলি একবার দেখে নেওয়া যাক। নিম্নলিখিত উপকরণগুলির সাবটাইটেলগুলি এআইকে খাওয়ানোর আগে কাটা হয়েছে এবং কেবলমাত্র সাবটাইটেলের প্রয়োজনীয়তা এবং উত্স কাজের নাম এআইকে সরবরাহ করা হয়েছে, যার অর্থ চরিত্রের নাম এবং অতিরিক্ত প্লটের তথ্য সমস্ত জ্ঞান বেসের উপর নির্ভর করে মিথুন দ্বারা তৈরি করা হয়েছে!

  1. "আপনি কি ধরনের জীবন যাপন করতে চান" পর্ব ভিডিও ক্লিপ - পর্দা কন্টেন্ট, প্লট, চীনা সাবটাইটেল, জাপানি সাবটাইটেল, শব্দ বিবরণ আউটপুট প্রয়োজন

  2. উদ্বোধনী গানের ভিডিওর "আপনার নাম" ইংরেজি সংস্করণ - স্ক্রিন সামগ্রী, ইংরেজি সাবটাইটেল, চীনা সাবটাইটেল, শব্দ বিবরণ আউটপুট প্রয়োজন

  3. হাতসুনে মিকুর "মিকু" সংক্ষিপ্ত ভিডিও - স্ক্রিন সামগ্রী এবং চীনা এবং জাপানি গানের আউটপুট প্রয়োজন

  4. বড়টি আসছে, "নতুন গেম" এর প্রথম পর্বের সমস্ত অডিও 👍 - চীনা এবং জাপানি সাবটাইটেলগুলির আউটপুট, সাউন্ড এফেক্টস, ভয়েস এবং প্রসঙ্গের উপর ভিত্তি করে স্পিকারের নাম অনুমান করা এবং ওপি / ইডি চীনা এবং জাপানি গানের কথা

  5. একটি চীনা, জাপানি এবং ইংরেজি গান, শব্দগুলি আরও স্পষ্ট, "হ্যালো ওয়ার্ল্ড" - কিজুনা এআই, "নুন の空の月" - アビドス হাই স্কুল পরিমাপ কমিটি, "সুন্দর মুখ" - লুও তিয়ানি; কেন আরারাগি - প্রতিটি বাক্যের দ্বিভাষিক ঘূর্ণায়মান গানের এবং গাওয়ার অনুভূতির আউটপুট প্রয়োজন

পরীক্ষার ফলাফল

আমি ম্যানুয়ালি সমস্ত ফলাফল চেক করেছি এবং কোনও ত্রুটি চিহ্নিত করা হয়েছে। যদি এটি নির্দেশিত না হয় তবে এর অর্থ পুরো নিবন্ধটি সঠিক।

সমস্ত টাইমলাইন 01.0 সেকেন্ডের জন্য সঠিক, যা পুরোপুরি ভিডিওর সাথে মেলে এবং নীচে উল্লেখ করা হবে না।

1《你想活出怎樣的人生》

উপসংহার: টাস্কের নিখুঁত সমাপ্তি। কোন ত্রুটি নেই।

স্ক্রিন সামগ্রী স্বীকৃতি।

↑ জ্ঞানের ঐশ্বর্য, প্লট প্রসঙ্গ স্বীকৃতি। আপনি সঠিকভাবে অক্ষর চিনতে এবং আরাম প্লট চিনতে পারেন.

↑ সাউন্ড ইফেক্ট ও সঙ্গীত স্বীকৃতি

↑ কোলাহলপূর্ণ পরিবেশে স্পিচ রিকগনিশন

2 "আপনার নাম" এর ইংরেজি সংস্করণের উদ্বোধনী ক্রেডিট।

ইংরেজি গানের কথায় একটি একক অঙ্কের স্বীকৃতি ত্রুটি ছিল, যা হোমোফোন বা বাক্যাংশের উচ্চারণে একটি ত্রুটি ছিল, যা মূলত চীনা অর্থকে প্রভাবিত করে না। অন্যান্য দিকগুলি কাজটি পুরোপুরি সম্পন্ন করে এবং এমনকি চলচ্চিত্রের প্লট অনুসারে তথ্য পরিপূরক করে, যেমন "চিউইং ওয়াইন", "টোকিও রাস্তাগুলি" ইত্যাদি।

↑ চিত্র স্বীকৃতি, সাউন্ড ইফেক্ট স্বীকৃতি

↑ চলচ্চিত্রের প্লট অনুযায়ী পর্দার বিবরণের তথ্য পরিপূরক করুন, যেমন কুমিহিমো, টাই শৌ এবং চিউইং ওয়াইন

3 মিকু সংক্ষিপ্ত ভিডিও

যখন ভিডিও ক্যামেরাটি দ্রুত স্যুইচ করা হয়েছিল, তখন সাবটাইটেলগুলি থেকে একটি বা দুটি স্টোরিবোর্ড মিস হয়েছিল। গানের কথাগুলো গানের ছন্দের সঙ্গে নিখুঁতভাবে সম্পৃক্ত।

4 নতুন খেলা পর্ব 👍 1

এই পরীক্ষার জন্য এআইকে কেবল অডিও এবং কাজের শিরোনাম সরবরাহ করা হয়। কয়েকটি লাইন রয়েছে যা কে কথা বলছে তা বলে না, তবে কেবল অডিও শোনার জন্য এই প্রয়োজনীয়তাটি কিছুটা কঠিন। যখন কোনও চরিত্র চিৎকার করে, তখন এমন একটি সম্ভাবনা থাকে যে তারা কী চিৎকার করছে তা তারা চিনতে সক্ষম হবে না (কখনও কখনও সফল, কখনও কখনও কেবল চিৎকার)। অন্য জায়গাগুলো একদম পারফেক্ট।

↑ বক্তৃতা স্বীকৃতি এবং চরিত্রের নাম অনুমান, এমনকি যদি এটি প্রথম উপস্থিতি হয় তবে স্পিকিং চরিত্রের নাম স্বয়ংক্রিয়ভাবে অনুমান করা যায়।

↑ কাতাকানা যথাযথ বিশেষ্যগুলি স্বয়ংক্রিয়ভাবে ইংরেজিতে পরিপূরক হয়, বা সরাসরি নাটকের মূল পাঠ্যটি ব্যবহার করে (আমি এটি জিজ্ঞাসা করিনি)

↑ জাপানি ও ইংরেজি মিশ্র ওপিইডি স্বীকৃতি, খুবই সঠিক। এমনকি যখন কোনও চরিত্র কথা বলছে, তারা একই সাথে লাইন এবং গানের কথা চিনতে পারে (চিত্র 3)

সবচেয়ে বিদ্রোহীচরিত্রটি নিঃশব্দে যে সমস্ত পাঠ্য বার্তাগুলি পড়ে সেগুলি [বার্তা] দিয়ে চিহ্নিত করা হয়েছে এবং কিছু পাঠ্য বার্তায় অনুমান করার মতো প্রসঙ্গও নেই এবং আমি সন্দেহ করি যে এটি চরিত্রের অভ্যন্তরীণ মনোলগের প্রতিধ্বনি প্রভাবটি সনাক্ত করতে পারে।

5 চীনা এবং জাপানি নায়কদের তিনটি গান

টাইমলাইন জোড়া। জাপানি ভাষায় দুটি শব্দ ভুল, ইংরেজিতে সবগুলি সঠিক এবং চীনা ভাষায় প্রায় অর্ধেক ভুল। এখানে আপনি সরাসরি ফলাফল ডায়াগ্রাম রাখতে পারেন। জাপানি ভাষায়, শুরুতে মাত্র দুটি শব্দ ভুল।

ইংলিশ, ঠিক আছে।

চাইনিজ, অর্ধেক ভুল, মার্কিং নেই।

ভিডিও কতক্ষণ প্রক্রিয়া করা যেতে পারে

我沒有測試極限長度。但是可以根據 token 使用量大致推算,我在上傳視頻時,為了方便 AI 處理,將視頻碼率壓縮到了 2Mbps,一分鐘視頻大約佔用 4-6 萬 token。24 分鐘音訊佔用 5 萬 token。

處理一集動漫長度的視頻大約需要 2 萬 token。由此可見,輸入長度並非瓶頸,真正的瓶頸在於輸出長度。如果以動漫視頻的 token 消耗量計算,一次性最長可以處理 60-80 分鐘的音訊。如果是網課視頻,處理時長可能會更短。

তবে সামগ্রিকভাবে, এটি আপাতত বেশ ভাল, সর্বোপরি, এই পর্যায়ে, এটি অসম্ভাব্য যে আমরা পুরো সিনেমাটি আপলোড করতে সক্ষম হব। মিথুনের এই পদক্ষেপ নিঃসন্দেহে এআই অ্যাপ্লিকেশনগুলির জন্য একটি বিস্তৃত পথ উন্মুক্ত করেছে!

উপসংহার

মনে হচ্ছে এআই আমার কল্পনার বাইরে বিকশিত হয়েছে। আমি এখনও অক্ষটি খেলতে একগুচ্ছ ওয়ার্কফ্লো + ম্যানুয়াল সহায়তা ব্যবহার করার জ্ঞানে আটকে আছি, এখন দেখুন, এআই দৈনিক ফ্যানে সাবটাইটেল যুক্ত করতে、বিদেশী ভাষা অনলাইন কোর্স, এটি ইতিমধ্যে অপরাজেয়。 এমনকি দৃষ্টি প্রতিবন্ধীদের জন্য সরাসরি প্লট এবং চিত্রগুলি বর্ণনা করা সম্ভব। সবকিছু খুব তাড়াতাড়ি ঘটে গেল।