自從生命的“密碼”—基因組被科學(xué)家破解以來,人類追求速度更快、成本更低的基因測序技術(shù)的腳步一直都在繼續(xù)。
在1月13日剛剛結(jié)束的摩根大通醫(yī)療健康大會上,NVIDIA發(fā)布了與初創(chuàng)公司 InstaDeep、慕尼黑工業(yè)大學(xué)(TUM)在基因組學(xué)大型語言模型方面的聯(lián)合研究成果。研究團(tuán)隊使用NVIDIA超級計算機 Cambridge-1,在各種基因組數(shù)據(jù)集上,訓(xùn)練了參數(shù)規(guī)模從500M到2.5B不等的各種大型語言模型(LLM),經(jīng)過基因組學(xué)訓(xùn)練的大型語言模型可將應(yīng)用擴(kuò)展到大量基因組學(xué)任務(wù), 這些任務(wù)有助于了解DNA如何轉(zhuǎn)錄生成RNA和蛋白質(zhì),從而開啟新的臨床應(yīng)用。
基因測序 夢想照進(jìn)現(xiàn)實
作為人類醫(yī)療技術(shù)發(fā)展的重要一步,基因測序可通過提取人體血液或唾液,對人類的DNA、RNA、蛋白質(zhì)及代謝物進(jìn)行分析,從而鎖定個人病變基因,以診斷、預(yù)測或預(yù)防遺傳性疾病的發(fā)生?;蛱N含了人類諸多病癥的秘密,使人類有機會盡早預(yù)防疾病,并多元化治療疾病。
2001年,被譽為生命科學(xué)“登月計劃”的“人類基因組計劃”(HGP)歷時13年,耗資近30億美元,發(fā)布了首張人類基因組草圖。此后二十年中,以數(shù)字生物學(xué)為基礎(chǔ)的基因組測序技術(shù)取得巨大進(jìn)步,將全基因組測序的成本逐步降低至不到1000美元。一時間,全球?qū)驕y序與分析的需求量出現(xiàn)暴漲。
加速計算突破基因分析算力瓶頸
隨著基因組測序和分析需求的激增,由此產(chǎn)生的數(shù)據(jù)也迎來爆發(fā)式增長。過去十年間,基因測序的數(shù)據(jù)量平均每七個月就會翻一倍, 2025年全球測序能力預(yù)計將達(dá)到Zb級別,其中,僅人類全基因組存儲的數(shù)據(jù)量就將達(dá)到每年2-40Eb。
要實現(xiàn)精準(zhǔn)醫(yī)療,就需要對大量基因數(shù)據(jù)做出精確的計算和分析,這意味著巨大的計算成本和時間。因此,必須有創(chuàng)新的技術(shù),打破全基因組測序數(shù)據(jù)醫(yī)療應(yīng)用的主要瓶頸,推動行業(yè)進(jìn)一步向前發(fā)展。
基因組測序與分析屬于標(biāo)準(zhǔn)的計算密集型任務(wù),而GPU擅長并行計算,可以將復(fù)雜計算問題分解為很多小任務(wù),在多個CUDA內(nèi)核上同時運行,從而大幅減少處理計算任務(wù)的時間,讓基因組測序分析的速度獲得大幅提升。NVIDIA以GPU為核心構(gòu)建出“全棧加速計算平臺”,與人工智能相結(jié)合,在全球包括基因測序在內(nèi)的多個領(lǐng)域掀起一場加速革命。
除了具有全球領(lǐng)先的硬件加速計算平臺,NVIDIA還推出了基于GPU的基因測序分析加速軟件—— NVIDIA Clara Parabricks。Clara Parabricks是一款GPU加速的計算基因組學(xué)工具包,可提供多種生物信息學(xué)工具和功能,如序列比對、預(yù)處理和質(zhì)量指標(biāo)、變異檢測、UMI以及用于胚系、體細(xì)胞和RNA分析的端到端工作流程。與僅使用CPU的解決方案相比,Parabricks速度提升高達(dá)80倍,計算成本降低高達(dá)50%。借助Clara Parabricks和GPU,將深度學(xué)習(xí)的強大功能應(yīng)用到基因組分析,可為測序中心、臨床團(tuán)隊、基因組學(xué)研究人員以及新一代測序儀器開發(fā)者提供快速準(zhǔn)確的分析,進(jìn)而助力更快速、更準(zhǔn)確的基因組學(xué)分析。
此外,為了更好地幫助科學(xué)家了解疾病,為患者找到治療方法,NVIDIA還推出了BioNeMo框架,用于訓(xùn)練和部署超算規(guī)模的大型生物分子語言模型。該大型語言模型框架可支持化學(xué)、蛋白質(zhì)、DNA和RNA數(shù)據(jù)格式,還可提供云API服務(wù),用于未來支持越來越多的預(yù)訓(xùn)練AI模型。
基因測序領(lǐng)域降本增效創(chuàng)造新記錄
在NVIDIA加速計算平臺、人工智能與基因測序?qū)I(yè)軟件的賦能下,來自全球的學(xué)研機構(gòu)、政府組織以及相關(guān)企業(yè),正在不斷突破基因測序與分析領(lǐng)域的速度與成本極限,創(chuàng)造出一項項新的記錄:
- 斯坦福大學(xué)、NVIDIA、牛津納米孔科技公司、谷歌、貝勒醫(yī)學(xué)院和加州大學(xué)圣克魯茲分校的研究人員共同合作推出DNA測序技術(shù),實現(xiàn)了創(chuàng)紀(jì)錄的測序速度。該方案使用NVIDIA Clara Parabricks計算基因組學(xué)應(yīng)用框架,以及GPU加速版本的PEPPER-Margin-DeepVariant流程,在谷歌云上使用NVIDIA GPU加速堿基判定和變體識別,將基因診斷時間從數(shù)周縮短到5.2小時,使醫(yī)生能夠快速判斷如何治療危重病人。
- 麻省理工學(xué)院與哈佛大學(xué)旗下的博德研究所與NVIDIA合作,為擁有超過2.5萬用戶的Terra云平臺提供快速分析海量醫(yī)療數(shù)據(jù)所需的AI能力和加速工具。通過GPU加速的NVIDIA Clara Parabricks工作流,可助力從事各種基因組數(shù)據(jù)分析的研究人員降本增效。在博德研究所的GATK最佳實踐——生殖細(xì)胞突變檢測分析流中,Parabricks在GPU上進(jìn)行分析的速度提高了24倍,而成本減半。
- 阿里云與NVIDIA達(dá)成合作,成為國內(nèi)首家在基因分析平臺集成和部署NVIDIA Clara Parabricks的公有云廠商。Clara Parabricks為阿里云基因分析平臺的行業(yè)標(biāo)準(zhǔn)基因組分析工具包以及基因調(diào)用器等工具帶來了GPU加速,據(jù)測算用戶可以在30分鐘內(nèi)完成一個30x測序深度的全基因組分析,且與GATK的最佳實踐結(jié)果 99.99% 一致,而在過去基于 CPU環(huán)境中這項工作需要20多個小時才能完成,并且計算成本可降低40%-80%。
- 普渡大學(xué)首席研究員Carpi博士和團(tuán)隊將Clara Parabricks的表現(xiàn)和瘧疾學(xué)界使用的鑒定變體和跟蹤瘧疾傳播的現(xiàn)有方法進(jìn)行了對比,并使用1000個瘧疾基因組監(jiān)測抗瘧藥物的耐藥性。與只使用CPU的傳統(tǒng)方式相比,基于GPU加速的Clara Parabricks分析速度提高了27倍,成本降低了5倍,同時準(zhǔn)確率達(dá)到 99.9%。
- 圣路易斯華盛頓大學(xué)的Tychele Turner博士與團(tuán)隊使用基于GPU加速的Clara Parabricks開發(fā)出一種快速基因組學(xué)工作流,用于在自閉癥患者中發(fā)現(xiàn)de novo 變異(DNVs)。通過將三重分析整合到 NVIDIA Clara Parabricks中,Turner博士將生成DNV初始分析的時間從原來的800 小時(在CPU上進(jìn)行)縮短至8.5小時(在GPU 上使用只有4個GPU的服務(wù)器),加快了100 倍。
- 為推廣基因組醫(yī)學(xué)計劃,泰國國家生物庫采用NVIDIA DGX A100系統(tǒng)和NVIDIA Clara Parabricks來打造IT基礎(chǔ)設(shè)施,以加速基因組測序。加速方案將全基因組測序的數(shù)據(jù)處理時間縮短了4個月,每位用戶的處理時間也從30多個小時縮短到1到2小時。
- 生物技術(shù)領(lǐng)軍企業(yè)Regeneron高通量測序中心與大規(guī)模的生物醫(yī)學(xué)數(shù)據(jù)庫和研究資源平臺英國生物樣本庫合作,在DNAnexus平臺上使用NVIDIA Clara Parabricks運行分析對超過50萬名生物庫參與者的外顯子組進(jìn)行了測序和分析,5分鐘內(nèi)完成了在32-vCPU機器上需要花費一小時計算的全外顯子組分析,同時成本降低約40%。
憑借加速計算領(lǐng)域的全棧能力以及深耕行業(yè)所積累的專業(yè)知識,NVIDIA現(xiàn)在已經(jīng)推出了智能計算平臺NVIDIA Clara,全面布局醫(yī)療健康行業(yè)。該平臺涵蓋了用于醫(yī)學(xué)影像的Clara Holoscan、基因組學(xué)的Clara Parabricks、患者監(jiān)控的Clara Guardian以及藥物研發(fā)的Clara Discovery,并可端到端部署至本地、嵌入式系統(tǒng)、邊緣以及云端等任何地方,助力行業(yè)實現(xiàn)無縫創(chuàng)新,加快實現(xiàn)精準(zhǔn)醫(yī)療的目標(biāo)。
無論是尖端醫(yī)學(xué)研究、大規(guī)模基因組分析還是日常應(yīng)用檢測,NVIDIA Million-X百萬倍計算性能飛躍的愿景已經(jīng)在基因測序的各個領(lǐng)域結(jié)出累累碩果,并將持續(xù)為人類消除疾病、促進(jìn)健康做出貢獻(xiàn)。