這是人類有史以來首次直接根據(jù)大腦信號,合成語音和面部表情,標(biāo)志著腦機接口應(yīng)用史上的又一里程碑。
撰文 | 凌駿
18年前,年僅30歲的Ann Johnson遭遇了嚴(yán)重的中風(fēng),當(dāng)時她是一名數(shù)學(xué)老師、排球教練以及一個嬰兒的母親,從此失去了運動和語言能力。
在她女兒的記憶里,從沒有過母親說話的聲音——直到美國加州大學(xué)舊金山分校等機構(gòu)的學(xué)者將一塊芯片植入了Ann Johnson的大腦皮層。接受植入后,當(dāng)她默念句子時,屏幕上的AI替身會幫她發(fā)出“她自己的”聲音,并展示微笑、嘟嘴、悲傷等等那些Ann Johnson努力想傳達的表情。
8月23日,《自然》雜志發(fā)布了這項壯舉,這也是人類有史以來首次直接根據(jù)大腦信號,合成語音和面部表情,它標(biāo)志著腦機接口應(yīng)用史上的又一里程碑。領(lǐng)導(dǎo)這一研究的加州大學(xué)舊金山分校神經(jīng)外科教授Edward Chang說,“我們只是想恢復(fù)人們的本來面目。”
Ann Johnson 與AI替身互動。(圖源:視頻截屏)
在腦機接口領(lǐng)域,近年來多個機構(gòu)陸續(xù)發(fā)布重磅成果。人工智能幫助癱瘓人士恢復(fù)基礎(chǔ)的日常活動,中科院深圳先進技術(shù)研究院正高級工程師李驍健告訴“醫(yī)學(xué)界”,“走得快的話,全球預(yù)計在2030年前就會有系統(tǒng)率先申報上市。”
從Ann Johnson 的上述經(jīng)歷來看,“讀心算法”的落地已并非天方夜譚。在價格方面,“不算手術(shù)、護理等醫(yī)療開銷,全套植入硬件設(shè)備成本最低可控制在5萬元人民幣之內(nèi)?!崩铗斀”硎尽?/p>
0:19/1:29自動播放
視頻由加州大學(xué)舊金山分校威爾神經(jīng)科學(xué)研究所Metzger等人提供。(視頻來源于網(wǎng)絡(luò))
虛擬AI替你發(fā)聲,是如何做到的
2005年中風(fēng)后,Ann Johnson患上了閉鎖綜合征。
十幾年來,她都靠著帶有反射點的眼鏡,對準(zhǔn)屏幕的字母敲擊形成文字和外界交流。每分鐘只能生成14個單詞,她在2020年的一篇文章中寫道,“閉鎖綜合征,就像你有充分的認(rèn)知,有完整的感覺,但被鎖在一個沒有肌肉的身體里?!?/p>
直到2021年,Ann Johnson看到了一項研究,科研團隊通過腦機接口芯片和人工智能算法,幫助一名癱瘓人士將試圖說的話轉(zhuǎn)為文本,并顯示屏幕上。Ann Johnson立刻聯(lián)系了對方,后來被選為此次臨床試驗的8名受試者之一。
而這次,研究人員不再滿足僅用文字展示話語。具體地,研究小組將一個由 253 個電極組成的、信用卡大小的芯片植入Ann Johnson大腦皮層的語言區(qū)域。在那里,芯片將攔截在中風(fēng)前本應(yīng)傳遞到嘴唇、舌頭、喉部和臉部肌肉的神經(jīng)元信號,重新采集并傳到Ann Johnson頭部的電子端口,端口和計算機相連,信號被解碼為文本,再合成語音。
本次試驗系統(tǒng)的概念圖。(圖源:加州大學(xué)舊金山分校)
語音模版用的是20年前Ann Johnson在婚禮祝酒詞的發(fā)言,“聽到自己的聲音會讓人激動......女兒也從未聽過我的聲音?!彼嬖V研究人員。
關(guān)于發(fā)聲的原理,李驍健向“醫(yī)學(xué)界”解釋道,當(dāng)她在大腦中默念單詞時,芯片會采集到相應(yīng)的大腦信號,再通過人工智能分類器,提取出不同單詞的音素組合特征,解碼并對應(yīng)到事先搭建好的單詞庫中識別,最終形成的語音由AI發(fā)聲。
研究人員構(gòu)建了由1024個單詞組成的詞庫,人工智能并不直接識別單詞,而是通過最小聲音單位的組合來實現(xiàn),比如“Hello”包含:“HH”、“AH”、“L”和“OW”,這樣,計算機只要和人建立了39 個聲音單元的連接,理論可以組合成任何詞句。
試驗過程中,Ann Johnson進行了幾周的訓(xùn)練,她必須一遍又一遍默念 1024 個單詞中的音節(jié),直到人工智能學(xué)會識別每個音節(jié)對應(yīng)的大腦活動,組合后與詞庫一一對應(yīng),建立連接。
Ann Johnson通過腦機接口系統(tǒng),與AI提升進行“意念互動”。(圖源:NBC)
由于植入電極密度增加、解碼和人工智能學(xué)習(xí)等方面的進展,解碼發(fā)聲的速度得到了大幅提升。研究結(jié)果顯示,該系統(tǒng)每分鐘能生成 78 個單詞,正常人的語速大約在每分鐘 160 個。而在同一團隊前述2021年的試驗中,還僅為每分鐘15到18個單詞。
研究團隊還和一家面部動畫公司合作,和Ann Johnson 大腦連接時,AI能識別信號并讓她的動畫替身做出下巴張開、閉合、咧嘴等不同動作,以表示開心、悲傷或驚訝。
“這是腦機接口在實用性上的重大突破。電子輔助失聲者溝通并不是新鮮事,但早期多為二維運動控制任務(wù),計算機只需解碼大腦中‘上下’和‘左右’兩個自由度,患者就能在虛擬鍵盤上任意選擇字母,甚至無需人工智能輔助解碼。但一個個字母拼,速度可想而知?!?/p>
“最新系統(tǒng)則屬于多分類任務(wù),分為表情和語言兩大類,表情中又有張嘴、閉嘴、咧嘴等,語言下面又包含幾十個不同音素。不同‘意念’形成龐大的排列組合后,還能相對快速、精準(zhǔn)地實現(xiàn)轉(zhuǎn)化,這反映了包括神經(jīng)科學(xué)、人工智能等多學(xué)科近年來的飛速發(fā)展。”李驍健說。
系統(tǒng)同時加入了聯(lián)想功能,在出現(xiàn)同音詞時,能根據(jù)語義選出最接近的詞匯。結(jié)果表明,當(dāng)Ann Johnson使用 1024 個單詞的詞匯集時,準(zhǔn)確率約為 75%。
“我們的目標(biāo)是恢復(fù)一種完整的溝通方式,也是與他人交談最自然的方式。這將對他們(癱瘓人士)的獨立性和社交產(chǎn)生深遠影響?!毖芯咳藛T表示,目前他們正在開發(fā)“無線版本”的設(shè)備,讓使用者不必通過頭頂電線和計算機連接。
目前,這一系統(tǒng)還不適用于“完全癱瘓”人士。Ann Johnson尚能調(diào)動部分嘴部肌肉,對口型。李驍健介紹道,喪失肌肉活動的人,大腦運動、語言相關(guān)的神經(jīng)活動也會最大程度退化,神經(jīng)信號的采集和解讀會更加困難。
腦機接口走到哪一步了?
對于殘障人士,該試驗被認(rèn)為是在“恢復(fù)身體獨立性和自主性”上又邁出了一大步。這兩年,腦接機口領(lǐng)域接連出現(xiàn)了革命性進展。
2022年6月28日,美國約翰斯·霍普金斯大學(xué)研究人員完成了全球首例雙邊植入腦機接口人體試驗,讓一位癱瘓30年的患者通過意念操控機械臂切、遞送蛋糕,完成自主進食;
美國Synchron公司則在今年1月公布“血管介入式”腦機接口臨床試驗最新進展,4名癱瘓者成功控制了外部設(shè)備,可進行發(fā)短信郵件、個人理財、在線購物等日?;顒?;
總部位于阿姆斯特丹的Onward公司開發(fā)了“腦-脊髓接口”,今年5月登頂《自然》的成果顯示,一位癱瘓12年的病人表現(xiàn)出神經(jīng)功能恢復(fù)跡象,植入物關(guān)閉后也能拄著拐杖行走。
大膽設(shè)想一個未來場景,無論是健康還是身患重疾,人類通過腦機接口,用“意念”實現(xiàn)對大部分智能設(shè)備的控制,解放身體勞動力,能否成為現(xiàn)實?
李驍健說,從單純的概念到落地醫(yī)療市場,腦機接口離大眾已并不遙遠?!白屖苷呖咳斯ぶ悄艿妮o助拿水杯喝水、控制輪椅自行運動、發(fā)合成的語音,完成一些2D或簡單的3D操作等,技術(shù)上已經(jīng)不是問題?!?/p>
“從這些基本需求出發(fā),只需采集大腦皮層運動和語言區(qū)的較少量神經(jīng)信號,對植入電極、芯片和解碼算力等的要求也相對低。預(yù)計5到10年內(nèi)就會有相應(yīng)產(chǎn)品申報?!崩铗斀≌f。
也正因如此,他認(rèn)為此次研究成果,很大程度代表了醫(yī)用植入式腦機接口技術(shù)短中期內(nèi)的發(fā)展方向。不過分追求高端的硬件設(shè)備,首先在簡單、實用的臨床應(yīng)用場景上做出突破,上市時定價也不會很高?!皩嶒炛忻糠昼娊獯a了七八十個單詞,基本達到現(xiàn)實場景可用的水平?!?/p>
Ann Johnson植入的是貼附在大腦皮層的ECoG電極,這一技術(shù)已誕生了近20年。Synchron公司用的則是“血管介入式”腦機接口,電極放入大腦血管,而不是皮層組織,雖然犧牲了信號采集的豐富度,但更為安全成熟,解碼也相對簡單,被認(rèn)為是或?qū)⒆钕壬鲜械漠a(chǎn)品。
而在約翰斯·霍普金斯大學(xué)的研究中,由于要采集和解碼多緯度、精細的動作信號,實現(xiàn)對機械臂的精準(zhǔn)控制。以目前的技術(shù)來看,則要通過向腦內(nèi)植入高密度、深度刺入式電極陣列來實現(xiàn)。離臨床使用上還有一定距離。
安全性是一方面的擔(dān)憂,同時復(fù)雜程度也將決定腦機接口能否實現(xiàn)無線控制。李驍健表示,只要頭頂還長出“電線”,它就不可能成為真正的臨床醫(yī)療器械。“更精細的運動控制信息,要依靠全體內(nèi)植入式的腦機接口裝置大規(guī)模收發(fā)神經(jīng)信號。這方面要做成無線,目前技術(shù)上還達不到?!?/p>
價格是另一考量。即便硬件成本隨科技發(fā)展一降再降,但和藥物不同的是,醫(yī)用腦機接口還依賴專業(yè)人士輔導(dǎo)下的大量使用訓(xùn)練、醫(yī)療護理以及后期一系列維護成本?!霸绞菑?fù)雜的系統(tǒng),脫離實驗室回歸日常使用的可能性也越低?!崩铗斀”硎?。
對于國內(nèi)的腦接機口領(lǐng)域來說同樣如此。根據(jù)中國信息通信研究院發(fā)布的《腦機接口總體愿景與關(guān)鍵技術(shù)研究報告》,結(jié)合我國肢體殘障和神經(jīng)系統(tǒng)的疾病負擔(dān),預(yù)測神經(jīng)重塑、神經(jīng)替代、神經(jīng)調(diào)控等腦機接口技術(shù)將擁有十萬億級別的市場空間。
“硬件水平上,我國和歐美的差距沒有想象得那么大。前幾年大家把腦機接口當(dāng)作一種高端設(shè)備投資,強調(diào)‘高端設(shè)備國產(chǎn)替代’,但最近才發(fā)現(xiàn)海外率先取得臨床成果的,往往用的是較早期的設(shè)備技術(shù)。”李驍健說。
今年5月29日,中科院院士趙繼宗在中關(guān)村論壇腦機接口創(chuàng)新發(fā)展論壇上稱,語言重建、腦控機械臂,在這些領(lǐng)域,國外能做到的,國內(nèi)也能做到,但更重要的是如何讓政府部門參與協(xié)調(diào)整個產(chǎn)學(xué)研用這條線,“個別病例、個別試驗可能都沒有問題,但最后要用于更多患者,就得考慮產(chǎn)業(yè)化路徑?!?/p>
“本次海外最新成果,靠的也不是新型硬件設(shè)備,而是團隊在語言解碼領(lǐng)域方法的創(chuàng)新和突破,瞄準(zhǔn)簡單卻實用的說話場景。相比硬件設(shè)備,臨床醫(yī)學(xué)、腦科學(xué)、人工智能、工程學(xué)的扎實基礎(chǔ)和多學(xué)科交叉、產(chǎn)學(xué)研間的緊密協(xié)作,結(jié)合臨床需求的緊迫程度,才是哪個系統(tǒng)能率先落地的關(guān)鍵因素?!崩铗斀≌f。