作者 | 方文三
人體器官的物理結(jié)構(gòu)會(huì)隨著生理和病理狀態(tài)的變化而改變,這導(dǎo)致不同疾病患者發(fā)出的聲音以及器官自身發(fā)聲產(chǎn)生特異性變化,這些聲音特征可以作為疾病的[聲音標(biāo)志物]。
聲學(xué)標(biāo)志物應(yīng)用于臨床的可行性提高
一個(gè)簡(jiǎn)單的例子是,感冒患者的聲音會(huì)變得沙啞,這便是聲音特征變化的一種體現(xiàn)。
隨著數(shù)字時(shí)代的到來,聽診器這一擁有超過兩百年歷史的醫(yī)療工具煥發(fā)了新的生機(jī)。
數(shù)字聽診器通過電子技術(shù)將聲波轉(zhuǎn)換為高精度的數(shù)字化電信號(hào),并經(jīng)過放大與處理,實(shí)現(xiàn)了比傳統(tǒng)聽診器更為清晰的聲音輸出。
加之人工智能技術(shù)的迅猛發(fā)展,將生物聲學(xué)標(biāo)志物應(yīng)用于臨床的可行性正逐漸從[遙不可及]轉(zhuǎn)變?yōu)閇觸手可及]。
然而,這一進(jìn)程并非一帆風(fēng)順。環(huán)境噪聲等外部因素會(huì)對(duì)音頻信號(hào)造成干擾,影響到咳嗽音特征的提取與分析。
受限于硬件性能,過去難以捕捉到高質(zhì)量的聲音信號(hào)。
值得慶幸的是,傳感器技術(shù)的快速進(jìn)步有效彌補(bǔ)了這一缺陷。
新一代電子聽診器采用壓電陶瓷傳感器作為拾音部件,相較于以往產(chǎn)品,其信號(hào)質(zhì)量和頻率響應(yīng)曲線更為優(yōu)異,能夠提供更準(zhǔn)確、清晰的心肺音信號(hào),進(jìn)而精確獲取用戶的健康數(shù)據(jù)。
更為關(guān)鍵的是,智能手機(jī)作為聲音標(biāo)志物采集設(shè)備,在經(jīng)歷了多年的激烈競(jìng)爭(zhēng)和技術(shù)革新后,其麥克風(fēng)拾音性能普遍有了顯著提升,足以滿足基本的音頻信號(hào)采集需求。
在克服了硬件障礙之后,聲學(xué)標(biāo)志物的發(fā)展正步入快車道。
谷歌大模型下場(chǎng),進(jìn)入聲學(xué)標(biāo)志物AI領(lǐng)域研究
今年初,谷歌發(fā)布了名為Health Acoustic Representations(簡(jiǎn)稱HeAR)的生物聲學(xué)基礎(chǔ)模型,該模型旨在協(xié)助研究人員開發(fā)出能夠通過監(jiān)聽人體聲音來識(shí)別早期疾病征兆的系統(tǒng)。
谷歌Research團(tuán)隊(duì)利用了一個(gè)包含三億條經(jīng)過去識(shí)別化處理的音頻數(shù)據(jù)集對(duì)HeAR進(jìn)行了訓(xùn)練,特別使用了一億條咳嗽聲音數(shù)據(jù)來訓(xùn)練咳嗽識(shí)別模型。
像HeAR這樣的解決方案,將使AI驅(qū)動(dòng)的聲學(xué)分析在結(jié)核病篩查和檢測(cè)領(lǐng)域開辟新的可能性,為最需要的人群提供一種潛在的低成本、易于獲取的工具。
這項(xiàng)AI系統(tǒng)經(jīng)過對(duì)數(shù)百萬個(gè)音頻剪輯樣本的訓(xùn)練,未來有望輔助醫(yī)生診斷包括COVID-19和肺結(jié)核在內(nèi)的肺部疾病,并對(duì)個(gè)人的肺功能進(jìn)行評(píng)估。
HeAR的創(chuàng)新之處在于其使用的龐大訓(xùn)練數(shù)據(jù)集,以及其能夠針對(duì)多種不同任務(wù)進(jìn)行微調(diào)的能力。
在該領(lǐng)域開發(fā)的大多數(shù)人工智能工具都是通過音頻記錄進(jìn)行訓(xùn)練的,例如咳嗽的錄音,這些錄音與發(fā)出聲音者的健康信息相匹配。
例如,這些錄音片段可能會(huì)被標(biāo)記為錄音時(shí)該人患有支氣管炎。這些人工智能工具通過監(jiān)督學(xué)習(xí)(Supervised Learning)的訓(xùn)練過程,將聲音特征與數(shù)據(jù)標(biāo)簽相關(guān)聯(lián)。
而在本項(xiàng)研究中,谷歌的研究人員采用了自監(jiān)督學(xué)習(xí)(Self-supervised Learning),使用未標(biāo)記的數(shù)據(jù),并通過自動(dòng)化過程,從公開的YouTube視頻中提取了超過三億個(gè)咳嗽、呼吸、清喉嚨及其他人類聲音的短片段。
每個(gè)片段被轉(zhuǎn)換為聲音的視覺表示——頻譜圖。研究團(tuán)隊(duì)隨后對(duì)頻譜圖的片段進(jìn)行了屏蔽處理,以幫助模型學(xué)習(xí)預(yù)測(cè)缺失的部分。
這與聊天機(jī)器人ChatGPT的大型語言模型在經(jīng)過大量人類文本示例訓(xùn)練后學(xué)會(huì)預(yù)測(cè)句子中下一個(gè)單詞的過程類似。
利用這種方法,研究團(tuán)隊(duì)構(gòu)建了一個(gè)基礎(chǔ)模型,該模型能夠適應(yīng)多種不同的任務(wù)。
研究顯示,HeAR在多項(xiàng)任務(wù)中的平均表現(xiàn)超越了其他模型,尤其在跨麥克風(fēng)泛化能力方面,展現(xiàn)了其在捕捉與健康相關(guān)的聲學(xué)數(shù)據(jù)中的顯著模式識(shí)別能力。
基于HeAR訓(xùn)練的模型即使在數(shù)據(jù)量有限的情況下也能實(shí)現(xiàn)高性能,這對(duì)于醫(yī)療研究領(lǐng)域中數(shù)據(jù)稀缺的問題具有特別重要的意義。
HeAR現(xiàn)已向研究人員開放,目的是促進(jìn)定制化生物聲學(xué)模型的快速發(fā)展,即使在數(shù)據(jù)稀缺或面臨成本和計(jì)算能力限制的情況下,也能為特定疾病和人群的研究提供支持。
8月底,谷歌宣布了HeAR模型的第一個(gè)應(yīng)用項(xiàng)目,將與印度企業(yè)Salcit Technologies合作,將HeAR應(yīng)用于肺結(jié)核的早期篩查。
Eko人工智能算法獲FDA首批,進(jìn)一步加速產(chǎn)業(yè)發(fā)展
在今年五月,Eko公司宣布其與數(shù)字聽診器相輔相成的人工智能軟件——[Eko低射血分?jǐn)?shù)工具(eleft)]獲得了批準(zhǔn)。
這一軟件被認(rèn)定為美國食品藥品監(jiān)督管理局(FDA)批準(zhǔn)的首個(gè)能夠輔助進(jìn)行心力衰竭早期篩查的人工智能算法,標(biāo)志著醫(yī)學(xué)領(lǐng)域的一項(xiàng)重大創(chuàng)新,緊接著在6月完成了4100萬美元的D輪融資。
通過Eko的人工智能技術(shù),醫(yī)生能夠在短短15秒內(nèi),僅憑數(shù)字聽診器采集到的心音,檢測(cè)出心臟低射血分?jǐn)?shù)(亦稱心臟低EF值)——這一指標(biāo)反映了心臟的收縮泵血能力。
射血分?jǐn)?shù)降低型心力衰竭(HFrEF)是心力衰竭的主要類型之一。
據(jù)數(shù)據(jù)顯示,在美國超過六百萬的心力衰竭患者中,約有一半患有射血分?jǐn)?shù)降低型心力衰竭。
Eko的人工智能算法與配套的數(shù)字聽診器相結(jié)合,能夠識(shí)別心臟雜音,有望在最初的常規(guī)檢查中,盡早識(shí)別出射血分?jǐn)?shù)降低型心力衰竭患者。
被識(shí)別出的患者隨后可以接受進(jìn)一步的檢查,以便及時(shí)進(jìn)行干預(yù)。
在2020年至2023年期間,Eko公司還獲得了多款醫(yī)療器械的批準(zhǔn),這些不僅包括升級(jí)版的數(shù)字聽診器,還包括能夠生成心音圖并對(duì)其進(jìn)行分析的人工智能算法。
其他企業(yè)也在該領(lǐng)域取得了實(shí)質(zhì)性進(jìn)展
另一家在業(yè)界享有盛譽(yù)的公司TytoCare,在去年8月完成了4900萬美元的融資。
其人工智能算法在7月底也獲得了FDA的進(jìn)一步批準(zhǔn),該算法能夠檢測(cè)成人及兩歲以上兒童的肺部濕啰音,從而有助于早期發(fā)現(xiàn)潛在的肺部疾病。
除了肺結(jié)核,哮喘和慢性阻塞性肺疾?。璺危┮彩巧锫晫W(xué)標(biāo)志物研究的重點(diǎn)。
澳大利亞的Resapp Health在該領(lǐng)域有著長(zhǎng)期的研究積累,并已在澳大利亞上市。
該公司旗下兩款產(chǎn)品之一——SleepCheckRx,用于識(shí)別阻塞性睡眠呼吸暫停,已獲得FDA批準(zhǔn);
另一款產(chǎn)品ResAppDx則通過分析咳嗽和呼吸聲來輔助診斷肺部疾病,也已獲得CE認(rèn)證。
2022年底,制藥巨頭輝瑞以1.79億美元收購了Resapp Health。
例如,日本AMI(Acute Medical Innovation)旗下的AI聽診器,它能夠輔助識(shí)別瓣膜性心臟病(包括主動(dòng)脈瓣狹窄)的早期征兆,在2022年10月獲得了日本醫(yī)療器械的審批。
TytoCare 在去年 8 月完成了 4900 萬美元的融資,其人工智能算法在 7 月底獲得了 FDA 的額外批準(zhǔn),可用于檢測(cè)成人和兩歲以上兒童的肺部濕啰音。
韓國的研究人員運(yùn)用了基于進(jìn)化深度學(xué)習(xí)的逆向設(shè)計(jì)技術(shù),成功研發(fā)出一種先進(jìn)的聲學(xué)超材料。
釜山國立大學(xué)所開發(fā)的通風(fēng)聲學(xué)諧振器(VAR)超材料,具備了降低噪音與提供通風(fēng)的雙重功能。
傳統(tǒng)分析方法在處理形狀復(fù)雜的VAR時(shí)存在局限性,僅能實(shí)現(xiàn)基礎(chǔ)的參數(shù)設(shè)計(jì)。
釜山的研究團(tuán)隊(duì)創(chuàng)新性地開發(fā)了一種基于深度學(xué)習(xí)的逆向設(shè)計(jì)方法,該方法能夠靈活地設(shè)計(jì)復(fù)雜的非參數(shù)VAR,從而提升性能并降低計(jì)算成本。
在所提出的逆向設(shè)計(jì)方法中,條件變分自動(dòng)編碼器(CVAE)——一種深度學(xué)習(xí)生成模型——對(duì)潛在空間中的VAR幾何特征進(jìn)行編碼。
潛在空間是一個(gè)低維空間,它包含了高維輸入(本例中為VAR)的核心信息。
這種聲學(xué)超材料的設(shè)計(jì)方法標(biāo)志著人工智能驅(qū)動(dòng)的先進(jìn)制造(AM)以及其他復(fù)雜機(jī)械結(jié)構(gòu)設(shè)計(jì)領(lǐng)域邁出了關(guān)鍵性的一步。
這些企業(yè)的努力和成就共同推動(dòng)了聲學(xué)標(biāo)志物 AI 領(lǐng)域的快速發(fā)展,使得這一新興領(lǐng)域展現(xiàn)出巨大的潛力和廣闊的應(yīng)用前景。
聲學(xué)標(biāo)志物AI在發(fā)展過程中面臨著一系列挑戰(zhàn)
①高質(zhì)量的音頻數(shù)據(jù)對(duì)于訓(xùn)練精準(zhǔn)有效的人工智能模型至關(guān)重要,但目前大多數(shù)醫(yī)療機(jī)構(gòu)尚未建立完善的音頻數(shù)據(jù)庫,這給模型的訓(xùn)練和優(yōu)化帶來了極大困難。
②由于聲音特征的復(fù)雜性和多變性,模型在不同環(huán)境和人群中的表現(xiàn)可能存在差異,導(dǎo)致結(jié)果的可靠性受到影響。此外,診斷準(zhǔn)確度的提升仍有很大空間。
盡管聲學(xué)標(biāo)志物AI展現(xiàn)出一定的潛力,但在面對(duì)復(fù)雜的疾病和個(gè)體差異時(shí),仍可能出現(xiàn)誤診或漏診的情況。
③在通用音頻特征的基礎(chǔ)上,針對(duì)咳嗽的發(fā)聲特性以及特定疾?。ɡ绶谓Y(jié)核)的病理特征和癥狀表現(xiàn),設(shè)計(jì)精準(zhǔn)的特定疾病患者咳嗽音的靶點(diǎn)特征,以實(shí)現(xiàn)對(duì)特定疾病患者與健康人群以及其他肺部疾病患者的精確區(qū)分,這一問題仍需解決。
④通常,模型訓(xùn)練所用的音頻數(shù)據(jù)較為理想,但在實(shí)際應(yīng)用中,需要識(shí)別的音頻信號(hào)會(huì)受到各種干擾,這會(huì)影響咳嗽音特征的提取和分析。
不同拾音設(shè)備的性能差異也可能導(dǎo)致咳嗽音頻質(zhì)量和特性發(fā)生變化,進(jìn)而影響模型的診斷結(jié)果。
由于音頻數(shù)據(jù)的采集及標(biāo)注都較為困難,這要求模型在少量精標(biāo)注數(shù)據(jù)的條件下仍然保持較好的檢測(cè)性能。
如何解決小樣本數(shù)據(jù)和復(fù)雜模型學(xué)習(xí)之間的矛盾,也是一個(gè)亟待解決的課題。
結(jié)尾:
在模型訓(xùn)練過程中,如何通過數(shù)據(jù)增強(qiáng)、噪聲抑制等方法減輕噪聲影響,利用領(lǐng)域泛化技術(shù)消除設(shè)備差異,從而提升診斷模型的魯棒性,將是提升生物聲學(xué)標(biāo)志物模型實(shí)際可用性的關(guān)鍵問題。
部分資料參考:
醫(yī)健網(wǎng):《谷歌?AI用聲音數(shù)據(jù)預(yù)測(cè)健康風(fēng)險(xiǎn),讓聲音成為健康監(jiān)測(cè)新工具》,生物世界:《谷歌最新論文:用AI通過咳嗽聲來診斷疾病》,vb動(dòng)脈網(wǎng):《谷歌大模型下場(chǎng),F(xiàn)DA完成首批,這個(gè)AI賽道起飛在即》,DeepTech深科技:《AI軟件通過患者咳嗽聲識(shí)別結(jié)核病,已通過3.3萬次自發(fā)咳嗽檢驗(yàn)》,21dB聲學(xué)人:《聲學(xué)研究新進(jìn)展:AI創(chuàng)造聲學(xué)超材料》