加州大學伯克利分校和加州大學三藩市分校的研究人員在腦機介面 (BCI) 技術方面取得了重大進展,他們開發出一套系統,能夠説明重度癱瘓患者恢復近乎自然的言語能力。這項新方法致力於解決言語神經假體的一個關鍵挑戰:從患者試圖說話到其思維轉化為聲音之間的延遲。
這項突破性技術發表在《自然神經科學》雜誌上,利用人工智慧 (AI) 將腦信號幾乎即時解碼為語音。通過近乎即時地將大腦活動轉化為可聽語音,該系統使語音更加流暢自然,從而實現連續表達,避免出現明顯的停頓。該研究由美國國立衛生研究院 (NIH) 下屬的國家耳聾和其他溝通障礙研究所 (NIDCD) 資助。
“我們的流媒體系統使用與 Alexa 或 Siri 等設備類似的演算法來解碼腦信號,並以幾乎與思維速度相同的速度生成語音,”加州大學伯克利分校聯合首席研究員兼助理教授 Gopala Anumanchipalli 解釋道。“這是我們首次能夠直接從神經數據實現流暢、連續的語音合成。”
這項新技術還可在多種設備上使用。它支援使用皮膚感測器測量面部肌肉活動的非侵入式方法,以及在大腦表面或內部放置電極的更複雜系統。據該論文合著者、博士生凱洛·利特爾約翰 (Kaylo Littlejohn) 介紹,只要能夠獲取可靠的信號,該演算法就能適應各種腦部監測裝置。
神經假體將大腦運動皮層(控制言語)的神經活動轉化為文字。這個過程是在一個人已經形成了想法並準備活動發聲肌肉之後進行的。為了訓練系統,參與者默默地嘗試說話,同時研究人員記錄他們的大腦活動。人工智慧模型會填補缺失的細節,例如聲音模式,從而創建語音輸出。
值得注意的是,該團隊以參與者受傷前的聲音作為參考,確保輸出的聲音聽起來既熟悉又貼切。先前的研究表明,解碼完整句子會有8秒的延遲,但新方法可以在不到一秒的時間內實現語音的可聽性。更快的回應速度與高精度相匹配,表明在不犧牲質量的情況下實現即時流媒體傳輸是可能的。
為了測試其靈活性,研究人員合成了系統訓練數據中沒有的稀有詞彙,例如來自北約音標字母表的詞彙(“Alpha”、“Bravo”等)。該技術表現良好,展現出其在詞彙應用方面的潛力。
加州大學三藩市分校高級研究員兼神經外科醫生 Edward Chang 強調了其在現實世界中的應用。“這項創新讓我們更接近實用的腦機介面,它可以極大地改善嚴重言語障礙患者的溝通能力,”他說。
未來的努力旨在增強語音的情感基調和表現力。目標是反映音調、音量和情感的變化,使輸出更加逼真。隨著進一步完善,這項技術可以顯著改善失語人士的溝通方式。