Rokid Glasses AR+AI 眼鏡最新研發進展:提詞器翻頁告別遙控戒指
更新于:2025-04-12 13:08:29

IT之家 4 月 11 日消息,Rokid Glasses AR+AI 眼鏡於去年 11 月發佈,用戶通過戒指的輕觸即可控制提詞翻頁。

然而,這種看似炫酷的交互方式仍存在諸多痛點:手動操作分散注意力、固定翻頁節奏殭化、演講者過度依賴提詞器等問題。

基於這些使用痛點,Rokid 研發團隊宣佈近日提交了一份“一種基於智慧演算法的提詞器功能”的專利,可以根據演講者的語速和演講節奏自動匹配文稿。其核心技術在於將演講者的語言表達與文稿滾動實現無縫同步,解決了傳統提詞系統的頑疾。

Rokid 介紹稱,在演講場景中,提詞器的交互方式長期受限於三種模式:手動觸控、物理遙控器、固定定時滾動。儘管這些方案在特定場景下有效,但其局限性日益凸顯:

  • 人工交互的注意力消耗手動操作眼鏡側面觸摸條或使用遙控戒指時,演講者需在表達內容與控制設備間頻繁切換注意力。

  • 滑動眼鏡的動作可能被觀眾誤讀為緊張或不自信的肢體語言。

  • 固定節奏的定時滾動模式雖然解放了雙手,但機械化的翻頁速度往往與演講者的語速脫節。當演講者因情緒高漲加快語速時,文字滾動可能滯後半句話;而遇到需要停頓強調的環節,文字卻仍在機械前滾,這種錯位會引發認知混亂。

IT之家從公告獲悉,Rokid 的新專利通過三項核心技術構建了智慧提詞系統:

1. 多模態語音辨識引擎系統採用端到端的深度神經網路模型,可即時解析演講者的語音內容。其創新之處在於:

  • 方言相容性:除普通話外,也支持多種方言,滿足多語言場景需求;

  • 抗干擾能力:在 45 分貝背景噪音下仍保持 98% 的識別準確率;

  • 非線性識別:能精準捕捉重複朗讀、跳躍式朗讀等非常規表達,如演講者突然回顧前文或跳讀關鍵段落時,系統能智慧判斷意圖並調整文稿位置。

2. 動態語速適配演算法該演演算法構建了“語速-文本密度”的動態映射模型:

  • 即時語速追蹤:每 0.5 秒更新一次語速數據,覆蓋 80-200 字 / 分鐘的寬泛區間(覆蓋 99% 的演講場景);

  • 彈性緩衝機制:當檢測到 5 秒以上停頓時,系統自動暫停並標記當前位置,恢復時通過上下文語義分析定位正確段落。

3. 多場景演講匹配演算法多場景匹配演算法結合,滿足演講場景的全方位交互需求

  • 精準匹配演算法:演講者無論是跳詞還是漏字,都能精準地匹配到正在閱讀的語句;

  • 模糊匹配演算法:演講過程中,演講者脫稿即興發揮或與觀眾無稿交流時,匹配演算法將暫停,不影響演講者的節奏,當演講者回到演講稿中,匹配演算法會立即識別,繼續精準匹配。