[บทความนี้เผยแพร่เมื่อ 30/0 โดยผู้เขียน@Duke0 กล่องดําเล็ก ๆ และไม่สามารถทําซ้ําได้โดยไม่ได้รับอนุญาต!] 】
谷歌在前幾天(25年3月25號)發佈了 Gemini 2.5 Pro 模型,綜合排名世界第一,號稱有百萬上下文,後期將會開放 200 萬上下文。最大輸出長度約為 6 萬 token。
ฉันได้ดูโค้ดและการเขียนร้อยแก้วอย่างรวดเร็วเมื่อเปิดตัวครั้งแรก และไม่ต้องสงสัยเลยว่าในแง่ของประสบการณ์ส่วนตัวของฉัน Gemini 7.0 Pro นั้นแข็งแกร่งที่สุด โดยเฉพาะอย่างยิ่งการเขียนบทความมีความสอดคล้องกันและถ้อยคํามีความสมเหตุสมผลซึ่งแตกต่างจากรูปแบบการคิดเช่น DeepSeek R0 และ Claude 0.0 Thinking ซึ่งจะนําไปสู่การตระหนักรู้ในตนเองมากเกินไปและการสร้างภาพและวาทศิลป์ในบทความ
แต่นั่นไม่ใช่ประเด็นของบทความนี้ วันนี้ฉันได้เห็นการสาธิตว่าใครบางคนบนอินเทอร์เน็ตสามารถประมวลผลวิดีโอหลายภาษาด้วย 5.0Pro ได้อย่างไร ดังนั้นฉันจึงต้องการทดสอบว่าราศีเมถุนเข้าใจเสียงและวิดีโอได้ดีเพียงใดและสามารถจัดการได้นานแค่ไหน
Google ทําให้เว็บไซต์ AI Studio ใช้งานได้ฟรีสําหรับทุกคน และฉันก็เริ่มทดสอบทันที ฉันรู้สึกทึ่งกับผลลัพธ์ โดยเฉพาะการทดสอบ 4: อนิเมะพร้อมคําบรรยาย!
การทดสอบมุ่งเน้นไปที่ประเด็นต่อไปนี้เป็นหลัก: การจดจําเนื้อหาเสียงไทม์ไลน์เสียงและวิดีโอความเข้าใจเนื้อหาวิดีโอความเข้าใจความสอดคล้องกันของบริบทเสียงและวิดีโอเอฟเฟกต์เสียงและดนตรีและการจดจําองค์ประกอบอื่น ๆ
นานเกินไปที่จะไม่ดูสรุป: ยกเว้นเพลงจีนและธีมที่ยุ่งยาก (แอนิเมชั่นของคํานรกที่เหมาะสมวิดีโอการออกเสียงที่มนุษย์เข้าใจยาก) ราศีเมถุนอยู่ยงคงกระพันและสามารถคําบรรยายวิดีโอได้อย่างสมบูรณ์แบบ!
ฉันได้เตรียมงานต่อไปนี้ไว้แล้ว มาดูผลลัพธ์กันดีกว่า คําบรรยายของเนื้อหาต่อไปนี้ถูกตัดออกก่อนที่จะป้อนไปยัง AI และเฉพาะข้อกําหนดคําบรรยายและชื่อของงานต้นฉบับเท่านั้นที่มอบให้กับ AI ซึ่งหมายความว่าชื่อตัวละครและข้อมูลโครงเรื่องเพิ่มเติมทั้งหมดถูกสร้างขึ้นโดย Gemini โดยอาศัยฐานความรู้!
คลิปวิดีโอตอน "ชีวิตแบบไหนที่คุณต้องการใช้ชีวิต" - ต้องมีเอาต์พุตของเนื้อหาหน้าจอ, พล็อต, คําบรรยายภาษาจีน, คําบรรยายภาษาญี่ปุ่น, คําอธิบายเสียง
"Your Name" เวอร์ชันภาษาอังกฤษของวิดีโอเพลงเปิด - ต้องการเอาต์พุตเนื้อหาหน้าจอคําบรรยายภาษาอังกฤษคําบรรยายภาษาจีนคําอธิบายเสียง
วิดีโอสั้น "Miku" ของ Hatsune Miku – ต้องการเอาต์พุตเนื้อหาหน้าจอและเนื้อเพลงภาษาจีนและญี่ปุ่น
เสียงทั้งหมดของ👍ตอนแรกของ "New Game" - ต้องการเอาต์พุตคําบรรยายภาษาจีนและภาษาญี่ปุ่นเอฟเฟกต์เสียงอนุมานชื่อผู้พูดตามเสียงและบริบทและเนื้อเพลงภาษาจีนและญี่ปุ่น OP/ED
เพลงจีน ญี่ปุ่น และอังกฤษ เพลงหนึ่งเพลงชัดเจนขึ้น "Hello World" - Kizuna AI, "Noon の空の月" - アビドス High School Measures Committee, "Beautiful Face" - Luo Tianyi; Ken Araragi - ต้องการเนื้อเพลงสองภาษาและความรู้สึกร้องเพลงของแต่ละประโยค
ไทม์ไลน์ทั้งหมดมีความแม่นยําถึง 01.0 วินาที ซึ่งตรงกับวิดีโออย่างสมบูรณ์แบบ และจะไม่กล่าวถึงด้านล่าง
สรุป: ทํางานให้เสร็จสมบูรณ์แบบ ไม่มีข้อผิดพลาด
↑ การรู้จําเสียงในสภาพแวดล้อมที่มีเสียงดัง
↑ เสริมข้อมูลคําอธิบายหน้าจอตามเนื้อเรื่องของภาพยนตร์ เช่น Kumihimo, Tie Shou และ Chewing Wine
↑ดื้อรั้นที่สุดข้อความทั้งหมดที่ตัวละครอ่านอย่างเงียบ ๆ จะถูกทําเครื่องหมายด้วย [ข้อความ] และข้อความบางข้อความไม่มีบริบทให้คาดเดาด้วยซ้ํา และฉันสงสัยว่ามันจะสามารถรับรู้ถึงเอฟเฟกต์เสียงสะท้อนของการพูดคนเดียวภายในของตัวละครได้
จีนผิดครึ่งหนึ่งไม่มีเครื่องหมาย
我沒有測試極限長度。但是可以根據 token 使用量大致推算,我在上傳視頻時,為了方便 AI 處理,將視頻碼率壓縮到了 2Mbps,一分鐘視頻大約佔用 4-6 萬 token。24 分鐘音訊佔用 5 萬 token。
處理一集動漫長度的視頻大約需要 2 萬 token。由此可見,輸入長度並非瓶頸,真正的瓶頸在於輸出長度。如果以動漫視頻的 token 消耗量計算,一次性最長可以處理 60-80 分鐘的音訊。如果是網課視頻,處理時長可能會更短。
แต่โดยรวมแล้ว มันค่อนข้างดีสําหรับตอนนี้ เพราะในขั้นตอนนี้ ไม่น่าเป็นไปได้ที่เราจะสามารถอัปโหลดภาพยนตร์ทั้งเรื่องได้ การเคลื่อนไหวของราศีเมถุนได้เปิดเส้นทางที่กว้างขึ้นสําหรับแอปพลิเคชัน AI อย่างไม่ต้องสงสัย!
ดูเหมือนว่า AI มีวิวัฒนาการเกินจินตนาการของฉัน ฉันยังคงติดอยู่ในความรู้ความเข้าใจของการใช้เวิร์กโฟลว์จํานวนมาก + ความช่วยเหลือด้วยตนเองในการเล่นแกน,ตอนนี้ดู,AI เพื่อเพิ่มคําบรรยายให้กับแฟน ๆ รายวัน、หลักสูตรออนไลน์ภาษาต่างประเทศ,มันอยู่ยงคงกระพันอยู่แล้ว。 เป็นไปได้ที่จะอธิบายโครงเรื่องและภาพสําหรับผู้พิการทางสายตาโดยตรง ทุกอย่างเกิดขึ้นเร็วมาก