加州大學伯克利分校和加州大學三藩市分校的研究人員開發了一種腦機介面系統,能夠讓嚴重癱瘓的人恢復自然的語言能力。這項創新解決了語音神經假體領域長期存在的難題,在《自然神經科學》雜誌發表的一項研究中進行了詳細介紹,代表著在為失去說話能力的人提供即時通信方面邁出了重大一步。
研究團隊利用人工智慧的進步解決了延遲問題(即人們說話的意圖和發出聲音之間的延遲)。他們的流媒體系統可以近乎即時地將神經信號解碼為可聽見的語音。
“我們的流式傳輸方法為神經假體帶來了與 Alexa 和 Siri 等設備相同的快速語音解碼能力,”加州大學伯克利分校聯合首席研究員兼助理教授 Gopala Anumanchipalli解釋道。“使用類似的演算法,我們發現我們可以解碼神經數據,並首次實現近乎同步的語音流式傳輸。結果是更自然、更流暢的語音合成。”
這項技術對於改善 ALS 或中風引起的癱瘓等疾病患者的生活有著巨大的希望。“令人興奮的是,最新的人工智慧進展大大加速了 BCI 在不久的將來在現實世界中的實際應用,”加州大學三藩市分校神經外科醫生、這項研究的高級聯合首席研究員 Edward Chang 說。
該系統的工作原理是從運動皮層(大腦中負責控制語音產生的部分)採集神經數據,然後使用人工智慧將這種活動解碼為口語。研究人員在 Ann 身上測試了他們的方法,Ann 是一名 47 歲的女性,自 18 年前中風以來一直無法說話。Ann 參加了一項臨床試驗,在她試圖默默說出螢幕上顯示的句子時,植入她大腦表面的電極記錄了神經活動。然後,使用以她受傷前的聲音訓練的人工智慧模型將這些信號解碼為可聽見的語音。
“我們本質上是在攔截將思想轉化為表達的信號,”加州大學伯克利分校博士生、這項研究的共同主要作者 Cheol Jun Cho 解釋道。“所以我們解碼的是思想發生之後——在我們決定說什麼以及如何移動我們的聲道肌肉之後。”這種方法使研究人員能夠將 Ann 的神經活動映射到目標句子上,而無需她發聲。
其中一個關鍵突破是實現近乎實時的語音合成。以前的 BCI 系統存在顯著延遲——解碼一個句子需要長達八秒鐘——但這種新方法大大減少了延遲。“我們可以看到,相對於那個意圖信號,在一秒鐘內,我們就能得到第一個聲音,”Anumanchipalli 指出。
該系統還展示了連續解碼功能,讓安可以不受干擾地“說話”。
儘管速度很快,但該系統在解碼語音方面仍保持了較高的準確率。為了測試其適應性,研究人員評估了它是否可以合成訓練數據集之外的單詞。
他們使用北約語音字母表中的稀有單詞,如“Alpha”和“Bravo”,證實了他們的模型可以推廣到熟悉詞彙之外。“我們發現我們的模型在這方面做得很好,這表明它確實在學習聲音或語音的構成要素,”Anumanchipalli 說。
Ann 本人也注意到,這種新的流媒體方法與之前研究中使用的早期文本轉語音方法之間存在巨大差異。據 Anumanchipalli 稱,她認為近乎即時地聽到自己的聲音增強了她的身臨其境感,這是讓 BCI 感覺更自然的關鍵一步。
研究人員還探索了他們的系統如何與不同的腦感測技術配合使用,包括穿透腦組織的微電極陣列 (MEA) 和檢測面部肌肉活動的非侵入性表面肌電圖 (sEMG) 感測器。這種多功能性表明,該系統在各種 BCI 平臺上具有更廣泛的潛在應用。
該團隊目前正致力於進一步增強和優化他們的技術。正在進行的研究領域之一是通過將聲調、音調和響度等副語言特徵融入合成語音來增強表達能力。“即使在傳統音訊合成領域,這也是一個長期存在的問題,”另一位共同主要作者、加州大學伯克利分校博士生 Kaylo Littlejohn 說。“它將彌補與完全自然主義的差距。”
儘管仍處於實驗階段,但這一突破帶來了希望,即通過持續的投入和開發,能夠恢復流利語音的 BCI 可能在未來十年內得到廣泛應用。
該項目獲得了日本國立耳聾和其他交流障礙研究所(NIDCD)、日本科學技術振興機構的“登月計劃”以及多家私人基金會等組織的資助。
Cho 表示:“這個概念驗證框架是一個重大突破。我們樂觀地認為,現在我們可以在各個層面取得進展。”