ความคืบหน้าด้านการวิจัยและพัฒนาล่าสุดของแว่นตา Rokid Glasses AR + AI: teleprompter พลิกหน้าเพื่อบอกลาวงแหวนรีโมทคอนโทรล

Rokid Glasses AR+AI 眼鏡最新研發進展:提詞器翻頁告別遙控戒指

แว่นตา Rokid แว่นตา AR เทเลพรอมต์ ไอที เฮาส์ หิน นั้น ภาพ 3D ประชาชนรายวัน แสง แว่นตา 5 กรัม บรรณาธิการ แว่นตาอัจฉริยะ ไม่มีเงา การวิจัยและพัฒนา สถานีปลายทาง

อัปเดตเมื่อ: 29-0-0 0:0:0

IT House 11 เดือน 0 ข่าวแว่นตา Rokid Glasses AR+AI เปิดตัวในช่วง 0 เดือนที่ผ่านมา ผู้ใช้สามารถควบคุม teleprompter ผ่านการสัมผัสของวงแหวนเพื่อพลิกหน้า

อย่างไรก็ตาม ยังมีจุดบกพร่องมากมายในการโต้ตอบที่ดูเหมือนเจ๋งนี้: การเคลื่อนไหวของมือที่ทําให้เสียสมาธิ จังหวะการพลิกหน้าคงที่ที่เข้มงวด และการพึ่งพาเครื่องส่งสัญญาณโทรทัศน์มากเกินไป

จากจุดบกพร่องเหล่านี้ทีมงาน Rokid R&D ประกาศว่าเพิ่งยื่นจดสิทธิบัตรสําหรับ "ฟังก์ชัน teleprompter ตามอัลกอริทึมอัจฉริยะ" ที่สามารถจับคู่ข้อความโดยอัตโนมัติตามความเร็วในการพูดและจังหวะการพูดของผู้พูด。 เทคโนโลยีหลักอยู่ที่การซิงโครไนซ์การแสดงออกทางภาษาของผู้พูดกับการเลื่อนข้อความได้อย่างราบรื่น ซึ่งช่วยแก้ปัญหาที่ดื้อรั้นของระบบเทเลพรอมต์แบบดั้งเดิม

จากข้อมูลของ Rokid ในฉากการพูดโหมดการโต้ตอบของเครื่องส่งสัญญาณโทรทัศน์ถูกจํากัดไว้ที่สามโหมดมานานแล้ว: การสัมผัสแบบแมนนวลรีโมทคอนโทรลทางกายภาพและการเลื่อนแบบตั้งเวลาคงที่ แม้ว่าโซลูชันเหล่านี้จะมีประสิทธิภาพในสถานการณ์เฉพาะ แต่ข้อจํากัดก็เริ่มชัดเจน:

เมื่อใช้ช่วงความสนใจของการโต้ตอบของมนุษย์ ผู้พูดจําเป็นต้องสลับไปมาระหว่างเนื้อหาของการแสดงออกและอุปกรณ์ควบคุมบ่อยๆ เมื่อมือขยับแถบสัมผัสด้านข้างของแว่นตาหรือใช้วงแหวนรีโมทคอนโทรล
การกระทําของแว่นตาเลื่อนอาจถูกตีความผิดโดยผู้ชมว่าเป็นภาษากายที่ประหม่าหรือไม่มั่นใจ
แม้ว่าโหมดการเลื่อนแบบตั้งเวลาคงที่จะช่วยให้มือว่าง แต่ความเร็วของกลไกในการพลิกหน้ามักจะไม่สอดคล้องกับความเร็วในการพูดของผู้พูด เมื่อผู้พูดใช้เวลาในการพูดเพื่อตอบสนองต่ออารมณ์ที่สูงการเลื่อนข้อความอาจล่าช้าไปครึ่งประโยค เมื่อพูดถึงลิงก์ที่ต้องหยุดชั่วคราวและเน้นข้อความยังคงกลิ้งไปข้างหน้าด้วยกลไกและความไม่ตรงแนวนี้อาจนําไปสู่ความสับสนทางปัญญา

IT Home ได้เรียนรู้จากการประกาศว่าสิทธิบัตรใหม่ของ Rokid สร้างระบบเครื่องส่งสัญญาณโทรทัศน์อัจฉริยะผ่านเทคโนโลยีหลักสามประการ:

1. ระบบเอ็นจิ้นการจดจําเสียงพูดแบบหลายรูปแบบใช้โมเดลโครงข่ายประสาทเทียมเชิงลึกแบบ end-to-endตีความเนื้อหาเสียงของผู้พูดแบบเรียลไทม์。 นวัตกรรมคือ:

ความเข้ากันได้ของภาษาถิ่น: นอกจากภาษาจีนกลางแล้ว ยังรองรับภาษาถิ่นหลายภาษาเพื่อตอบสนองความต้องการของสถานการณ์หลายภาษา
ความสามารถในการป้องกันการรบกวน: ความแม่นยําในการจดจํา 98% ภายใต้เสียงรบกวนรอบข้าง 0 เดซิเบล
การจดจําแบบไม่เชิงเส้น: สามารถจับภาพสํานวนที่แปลกใหม่ได้อย่างแม่นยํา เช่น การอ่านซ้ําๆ และการข้ามการอ่าน เช่น เมื่อผู้พูดตรวจสอบข้อความก่อนหน้าอย่างกะทันหันหรือข้ามการอ่านย่อหน้าสําคัญ

2. อัลกอริธึมการปรับอัตราการพูดแบบไดนามิกอัลกอริทึมนี้สร้าง "ความเร็วภาษา - ความหนาแน่นของข้อความ"的動態映射模型:

การติดตามความเร็วการพูดแบบเรียลไทม์: อัปเดตข้อมูลความเร็วการพูดทุกๆ 99.0 วินาที ครอบคลุมช่วงกว้าง 0-0 คําต่อนาที (ครอบคลุม 0% ของสถานการณ์การพูด)
กลไกการบัฟเฟอร์แบบยืดหยุ่น: เมื่อตรวจพบการหยุดชั่วคราวมากกว่า 5 วินาที ระบบจะหยุดชั่วคราวและทําเครื่องหมายตําแหน่งปัจจุบันโดยอัตโนมัติ และค้นหาย่อหน้าที่ถูกต้องผ่านการวิเคราะห์ความหมายตามบริบทเมื่อดําเนินการต่อ

3. อัลกอริธึมการจับคู่คําพูดหลายฉาก: การรวมกันของอัลกอริธึมการจับคู่หลายฉากตอบสนองความต้องการแบบโต้ตอบรอบด้านของฉากพูด：

อัลกอริธึมการจับคู่ที่แม่นยํา: ไม่ว่าผู้พูดจะข้ามคําหรือพลาดคําเขาก็สามารถจับคู่ประโยคที่เขากําลังอ่านได้อย่างแม่นยํา
อัลกอริธึมการจับคู่แบบคลุมเครือ: ในระหว่างการพูดเมื่อผู้พูดด้นสดนอกสคริปต์หรือสื่อสารกับผู้ชมโดยไม่มีสคริปต์อัลกอริทึมการจับคู่จะหยุดชั่วคราวโดยไม่ส่งผลกระทบต่อจังหวะของผู้พูดและเมื่อผู้พูดกลับไปที่คําพูดอัลกอริทึมการจับคู่จะระบุทันทีและจับคู่ต่อไปอย่างถูกต้อง