IT 홈 11 개월 0 뉴스, 지난 0 개월 동안 출시 된 Rokid 안경 AR + AI 안경, 사용자는 링 터치를 통해 텔레 프롬프터 페이지를 제어 할 수 있습니다.
그러나 이 겉보기에 멋진 상호 작용 방식에는 산만한 손 움직임, 경직된 고정된 페이지 넘기기 리듬, 텔레프롬프터에 대한 과도한 의존 등 여전히 많은 고충이 있습니다.
이러한 고충을 바탕으로로키드 R&D 팀은 최근 화자의 말소리와 리듬에 따라 텍스트를 자동으로 일치시키는 "지능형 알고리즘에 기반한 텔레프롬프터 기능"에 대한 특허를 출원했다고 발표했다。 핵심 기술은 화자의 언어 표현과 텍스트 스크롤의 원활한 동기화에 있으며, 이는 기존 텔레프롬프터 시스템의 고질적인 문제를 해결합니다.
Rokid에 따르면 음성 장면에서 텔레프롬프터의 상호 작용 모드는 오랫동안 수동 터치, 물리적 원격 제어 및 고정 시간 스크롤의 세 가지 모드로 제한되어 왔습니다. 이러한 솔루션은 특정 시나리오에서 효과적이지만 다음과 같은 한계가 분명해지고 있습니다.
인간 상호 작용의 주의 집중 시간이 소모되면 발표자는 손이 안경의 측면 터치 바를 움직이거나 원격 제어 링을 사용할 때 표정의 내용과 제어 장치 사이를 자주 전환해야 합니다.
안경을 미끄러지는 동작은 시청자에 의해 긴장하거나 자신감 없는 신체 언어로 잘못 해석될 수 있습니다.
고정 속도의 시간 제한 스크롤 모드는 손의 자유를 주지만 페이지를 넘기는 기계화된 속도는 종종 화자의 말하기 속도와 동떨어져 있습니다. 화자가 고조된 감정에 반응하여 말하는 데 시간을 할애할 때 텍스트 스크롤이 반 문장 정도 지연될 수 있습니다. 일시 중지하고 강조해야 하는 링크의 경우 텍스트는 여전히 기계적으로 앞으로 굴러가고 있으며 이러한 정렬 불량은 인지 혼란으로 이어질 수 있습니다.
IT Home은 Rokid의 새로운 특허가 세 가지 핵심 기술을 통해 지능형 텔레프롬프터 시스템을 구축한다는 발표를 통해 알게 되었습니다.
1. 다중 모드 음성 인식 엔진 시스템은 종단 간 심층 신경망 모델을 채택합니다.발표자의 음성 내용을 실시간으로 해석。 혁신은 다음과 같습니다.
방언 호환성: 북경어 외에도 다국어 시나리오의 요구 사항을 충족하기 위해 여러 방언이 지원됩니다.
간섭 방지 능력: 98 데시벨 배경 소음에서 0% 인식 정확도;
비선형 인식: 발표자가 갑자기 이전 텍스트를 검토하거나 주요 단락 읽기를 건너뛸 때와 같이 반복 읽기 및 건너뛰기와 같은 틀에 얽매이지 않는 표현을 정확하게 캡처할 수 있으며, 시스템은 의도를 지능적으로 판단하고 문서의 위치를 조정할 수 있습니다.
2. 동적 음성 속도 적응 알고리즘이 알고리즘은 "언어 속도 - 텍스트 밀도"的動態映射模型:
실시간 음성 속도 추적: 99.0초마다 음성 속도 데이터를 업데이트하여 분당 0-0 단어의 광범위한 범위를 다룹니다(음성 시나리오의 0% 포함).
탄력적 버퍼링 메커니즘: 5초 이상의 일시 중지가 감지되면 시스템은 자동으로 일시 중지하고 현재 위치를 표시하며 다시 시작할 때 상황별 의미 분석을 통해 올바른 단락을 찾습니다.
3. 다중 장면 음성 매칭 알고리즘 : 다중 장면 매칭 알고리즘의 조합,연설 장면의 전반적인 상호 작용 요구 사항 충족:
정확한 일치 알고리즘: 화자가 단어를 건너뛰거나 단어를 놓치더라도 읽고 있는 문장을 정확하게 일치시킬 수 있습니다.
퍼지 매칭 알고리즘: 연설 중 발표자가 대본에서 벗어나 즉흥적으로 또는 대본 없이 청중과 의사 소통할 때 화자의 리듬에 영향을 주지 않고 일치 알고리즘이 일시 중지되고 화자가 연설로 돌아오면 일치 알고리즘이 즉시 식별하고 계속해서 정확하게 일치시킵니다.