การทดสอบการจดจําเสียงและวิดีโอของ Google Gemini! ไม่ต้องการกลุ่มคําบรรยายอีกต่อไปใช่ไหม ข้อมูล

การทดสอบการจดจําเสียงและวิดีโอของ Google Gemini! ไม่ต้องการกลุ่มคําบรรยายอีกต่อไปใช่ไหม

อัปเดตเมื่อ: 51-0-0 0:0:0

[บทความนี้เผยแพร่เมื่อ 30/0 โดยผู้เขียน@Duke0 กล่องดําเล็ก ๆ และไม่สามารถทําซ้ําได้โดยไม่ได้รับอนุญาต!] 】

Gemini 5.0 Pro 是啥

谷歌在前幾天（25年3月25號）發佈了 Gemini 2.5 Pro 模型，綜合排名世界第一，號稱有百萬上下文，後期將會開放 200 萬上下文。最大輸出長度約為 6 萬 token。

ฉันได้ดูโค้ดและการเขียนร้อยแก้วอย่างรวดเร็วเมื่อเปิดตัวครั้งแรก และไม่ต้องสงสัยเลยว่าในแง่ของประสบการณ์ส่วนตัวของฉัน Gemini 7.0 Pro นั้นแข็งแกร่งที่สุด โดยเฉพาะอย่างยิ่งการเขียนบทความมีความสอดคล้องกันและถ้อยคํามีความสมเหตุสมผลซึ่งแตกต่างจากรูปแบบการคิดเช่น DeepSeek R0 และ Claude 0.0 Thinking ซึ่งจะนําไปสู่การตระหนักรู้ในตนเองมากเกินไปและการสร้างภาพและวาทศิลป์ในบทความ

แต่นั่นไม่ใช่ประเด็นของบทความนี้ วันนี้ฉันได้เห็นการสาธิตว่าใครบางคนบนอินเทอร์เน็ตสามารถประมวลผลวิดีโอหลายภาษาด้วย 5.0Pro ได้อย่างไร ดังนั้นฉันจึงต้องการทดสอบว่าราศีเมถุนเข้าใจเสียงและวิดีโอได้ดีเพียงใดและสามารถจัดการได้นานแค่ไหน

Google ทําให้เว็บไซต์ AI Studio ใช้งานได้ฟรีสําหรับทุกคน และฉันก็เริ่มทดสอบทันที ฉันรู้สึกทึ่งกับผลลัพธ์ โดยเฉพาะการทดสอบ 4: อนิเมะพร้อมคําบรรยาย!

เนื้อหาการทดสอบ

การทดสอบมุ่งเน้นไปที่ประเด็นต่อไปนี้เป็นหลัก: การจดจําเนื้อหาเสียงไทม์ไลน์เสียงและวิดีโอความเข้าใจเนื้อหาวิดีโอความเข้าใจความสอดคล้องกันของบริบทเสียงและวิดีโอเอฟเฟกต์เสียงและดนตรีและการจดจําองค์ประกอบอื่น ๆ

นานเกินไปที่จะไม่ดูสรุป: ยกเว้นเพลงจีนและธีมที่ยุ่งยาก (แอนิเมชั่นของคํานรกที่เหมาะสมวิดีโอการออกเสียงที่มนุษย์เข้าใจยาก) ราศีเมถุนอยู่ยงคงกระพันและสามารถคําบรรยายวิดีโอได้อย่างสมบูรณ์แบบ!

ฉันได้เตรียมงานต่อไปนี้ไว้แล้ว มาดูผลลัพธ์กันดีกว่า คําบรรยายของเนื้อหาต่อไปนี้ถูกตัดออกก่อนที่จะป้อนไปยัง AI และเฉพาะข้อกําหนดคําบรรยายและชื่อของงานต้นฉบับเท่านั้นที่มอบให้กับ AI ซึ่งหมายความว่าชื่อตัวละครและข้อมูลโครงเรื่องเพิ่มเติมทั้งหมดถูกสร้างขึ้นโดย Gemini โดยอาศัยฐานความรู้!

คลิปวิดีโอตอน "ชีวิตแบบไหนที่คุณต้องการใช้ชีวิต" - ต้องมีเอาต์พุตของเนื้อหาหน้าจอ, พล็อต, คําบรรยายภาษาจีน, คําบรรยายภาษาญี่ปุ่น, คําอธิบายเสียง
"Your Name" เวอร์ชันภาษาอังกฤษของวิดีโอเพลงเปิด - ต้องการเอาต์พุตเนื้อหาหน้าจอคําบรรยายภาษาอังกฤษคําบรรยายภาษาจีนคําอธิบายเสียง
วิดีโอสั้น "Miku" ของ Hatsune Miku – ต้องการเอาต์พุตเนื้อหาหน้าจอและเนื้อเพลงภาษาจีนและญี่ปุ่น
เสียงทั้งหมดของ👍ตอนแรกของ "New Game" - ต้องการเอาต์พุตคําบรรยายภาษาจีนและภาษาญี่ปุ่นเอฟเฟกต์เสียงอนุมานชื่อผู้พูดตามเสียงและบริบทและเนื้อเพลงภาษาจีนและญี่ปุ่น OP/ED
เพลงจีน ญี่ปุ่น และอังกฤษ เพลงหนึ่งเพลงชัดเจนขึ้น "Hello World" - Kizuna AI, "Noon の空の月" - アビドス High School Measures Committee, "Beautiful Face" - Luo Tianyi; Ken Araragi - ต้องการเนื้อเพลงสองภาษาและความรู้สึกร้องเพลงของแต่ละประโยค

ผลการทดสอบ

ฉันตรวจสอบผลลัพธ์ทั้งหมดด้วยตนเอง และมีการชี้ให้เห็นข้อผิดพลาดใดๆ หากไม่ได้ระบุไว้ แสดงว่าบทความทั้งหมดถูกต้อง

ไทม์ไลน์ทั้งหมดมีความแม่นยําถึง 01.0 วินาที ซึ่งตรงกับวิดีโออย่างสมบูรณ์แบบ และจะไม่กล่าวถึงด้านล่าง

1 "คุณต้องการมีชีวิตแบบไหน"

สรุป: ทํางานให้เสร็จสมบูรณ์แบบ ไม่มีข้อผิดพลาด

การจดจําเนื้อหาหน้าจอ

↑ ความสมบูรณ์ของฐานความรู้การรับรู้บริบทของพล็อต คุณสามารถจดจําตัวละครได้อย่างถูกต้องและรับรู้พล็อตเรื่องความสะดวกสบาย

↑ เอฟเฟกต์เสียงและการจดจําเพลง

↑ การรู้จําเสียงในสภาพแวดล้อมที่มีเสียงดัง

2 เครดิตเปิดของ "Your Name" เวอร์ชันภาษาอังกฤษ

มีข้อผิดพลาดในการจดจําหลักเดียวในเนื้อเพลงภาษาอังกฤษซึ่งเป็นข้อผิดพลาดในการออกเสียงคําพ้องเสียงหรือวลีซึ่งโดยพื้นฐานแล้วไม่ส่งผลต่อความหมายของภาษาจีน แง่มุมอื่นๆ ทํางานให้เสร็จสมบูรณ์อย่างสมบูรณ์แบบ และยังเสริมข้อมูลตามเนื้อเรื่องของภาพยนตร์ เช่น "เคี้ยวไวน์" "ถนนโตเกียว" เป็นต้น

↑ การจดจําภาพ, การจดจําเอฟเฟกต์เสียง

↑ เสริมข้อมูลคําอธิบายหน้าจอตามเนื้อเรื่องของภาพยนตร์ เช่น Kumihimo, Tie Shou และ Chewing Wine

3 วิดีโอสั้น Miku

เมื่อเปลี่ยนกล้องวิดีโออย่างรวดเร็วสตอรี่บอร์ดหนึ่งหรือสองภาพจะพลาดไปจากคําบรรยาย เนื้อเพลงถูกระบุอย่างสมบูรณ์แบบกับจังหวะของดนตรี

4 เกมใหม่ ตอนที่ 👍 1

เฉพาะเสียงและชื่องานเท่านั้นที่มอบให้กับ AI สําหรับการทดสอบนี้ มีสองสามบรรทัดที่ไม่ได้บอกว่าใครกําลังพูด แต่ข้อกําหนดนี้ค่อนข้างยากสําหรับการฟังเสียง เมื่อตัวละครกรีดร้อง มีโอกาสที่พวกเขาจะไม่สามารถรับรู้ได้ว่าพวกเขากําลังกรีดร้องอะไรอยู่ (บางครั้งก็ประสบความสําเร็จ บางครั้งก็กรีดร้องเท่านั้น) สถานที่อื่น ๆ ก็สมบูรณ์แบบ

↑ การรู้จําเสียงและการอนุมานชื่ออักขระ แม้ว่าจะเป็นการปรากฏตัวครั้งแรก แต่ชื่อของตัวละครที่พูดก็สามารถอนุมานได้โดยอัตโนมัติ

↑ คํานามเฉพาะของคาตาคานะจะถูกเสริมโดยอัตโนมัติในภาษาอังกฤษ หรือใช้ข้อความต้นฉบับในละครโดยตรง (ฉันไม่ได้ขอ)

↑ การจดจํา OPED แบบผสมภาษาญี่ปุ่นและภาษาอังกฤษแม่นยํามาก แม้ว่าตัวละครจะพูด แต่ก็สามารถจดจําบทพูดและเนื้อเพลงได้พร้อมกัน (รูปที่ 3)

↑ดื้อรั้นที่สุดข้อความทั้งหมดที่ตัวละครอ่านอย่างเงียบ ๆ จะถูกทําเครื่องหมายด้วย [ข้อความ] และข้อความบางข้อความไม่มีบริบทให้คาดเดาด้วยซ้ํา และฉันสงสัยว่ามันจะสามารถรับรู้ถึงเอฟเฟกต์เสียงสะท้อนของการพูดคนเดียวภายในของตัวละครได้

5 สามเพลงของวีรบุรุษจีนและญี่ปุ่น

คู่ไทม์ไลน์ คําสองคําผิดในภาษาญี่ปุ่น ทั้งหมดถูกในภาษาอังกฤษ และเกือบครึ่งหนึ่งผิดในภาษาจีน ที่นี่คุณสามารถใส่ไดอะแกรมผลลัพธ์ได้โดยตรง ในภาษาญี่ปุ่นมีเพียงสองคําเท่านั้นที่ผิดในตอนต้น

ภาษาอังกฤษ เอาล่ะ

จีนผิดครึ่งหนึ่งไม่มีเครื่องหมาย

สามารถประมวลผลวิดีโอได้นานแค่ไหน

我沒有測試極限長度。但是可以根據 token 使用量大致推算，我在上傳視頻時，為了方便 AI 處理，將視頻碼率壓縮到了 2Mbps，一分鐘視頻大約佔用 4-6 萬 token。24 分鐘音訊佔用 5 萬 token。

處理一集動漫長度的視頻大約需要 2 萬 token。由此可見，輸入長度並非瓶頸，真正的瓶頸在於輸出長度。如果以動漫視頻的 token 消耗量計算，一次性最長可以處理 60-80 分鐘的音訊。如果是網課視頻，處理時長可能會更短。

แต่โดยรวมแล้ว มันค่อนข้างดีสําหรับตอนนี้ เพราะในขั้นตอนนี้ ไม่น่าเป็นไปได้ที่เราจะสามารถอัปโหลดภาพยนตร์ทั้งเรื่องได้ การเคลื่อนไหวของราศีเมถุนได้เปิดเส้นทางที่กว้างขึ้นสําหรับแอปพลิเคชัน AI อย่างไม่ต้องสงสัย!

บทสรุป

ดูเหมือนว่า AI มีวิวัฒนาการเกินจินตนาการของฉัน ฉันยังคงติดอยู่ในความรู้ความเข้าใจของการใช้เวิร์กโฟลว์จํานวนมาก + ความช่วยเหลือด้วยตนเองในการเล่นแกน,ตอนนี้ดู,AI เพื่อเพิ่มคําบรรยายให้กับแฟน ๆ รายวัน、หลักสูตรออนไลน์ภาษาต่างประเทศ,มันอยู่ยงคงกระพันอยู่แล้ว。 เป็นไปได้ที่จะอธิบายโครงเรื่องและภาพสําหรับผู้พิการทางสายตาโดยตรง ทุกอย่างเกิดขึ้นเร็วมาก