加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專(zhuān)業(yè)用戶(hù)
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

解析基因組的“語(yǔ)言”:戈登貝爾獎(jiǎng)決賽選手使用大型語(yǔ)言模型來(lái)預(yù)測(cè)新冠病毒變異株

2022/11/17
1104
閱讀需 9 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

來(lái)自美國(guó)阿貢國(guó)家實(shí)驗(yàn)室、NVIDIA、芝加哥大學(xué)等組織機(jī)構(gòu)的研究員開(kāi)發(fā)了一個(gè)處理基因組規(guī)模數(shù)據(jù)的先進(jìn)模型,并入圍戈登貝爾COVID-19研究特別獎(jiǎng)決賽。

這一戈登貝爾特別獎(jiǎng)旨在表彰基于高性能計(jì)算的COVID-19研究。一位決賽入圍選手教會(huì)了大型語(yǔ)言模型(LLMs)一種新的語(yǔ)言——基因序列,使這些模型能夠提供基因組學(xué)、流行病學(xué)和蛋白質(zhì)工程方面的洞察。

這項(xiàng)開(kāi)創(chuàng)性的成果發(fā)表于10月,是由來(lái)自美國(guó)阿貢國(guó)家實(shí)驗(yàn)室、NVIDIA、芝加哥大學(xué)等組織機(jī)構(gòu)的二十多名學(xué)術(shù)和商業(yè)研究員合作完成。

該研究團(tuán)隊(duì)訓(xùn)練了一個(gè)LLM來(lái)追蹤基因突變,并預(yù)測(cè)需要關(guān)注的SARS-CoV-2(導(dǎo)致COVID-19的病毒)變異株。雖然迄今為止大多數(shù)應(yīng)用于生物學(xué)的LLM都是在小分子或蛋白質(zhì)的數(shù)據(jù)集上訓(xùn)練的,但這一項(xiàng)目是在原始核苷酸序列(DNA和RNA的最小單位)上訓(xùn)練的首批模型之一。

負(fù)責(zé)帶領(lǐng)該項(xiàng)目的阿貢國(guó)家實(shí)驗(yàn)室計(jì)算生物學(xué)家Arvind Ramanathan表示:“我們假設(shè)從蛋白質(zhì)水平到基因水平的數(shù)據(jù)有助于我們構(gòu)建出更易于理解新冠病毒變異株的模型。通過(guò)訓(xùn)練模型去追蹤整個(gè)基因組及其進(jìn)化過(guò)程中的所有變化,我們不僅能夠更好地預(yù)測(cè)COVID,還能預(yù)測(cè)已掌握足夠基因組數(shù)據(jù)的任何疾病。”

戈登貝爾獎(jiǎng)被譽(yù)為HPC領(lǐng)域的諾貝爾獎(jiǎng)。今年的戈登貝爾獎(jiǎng)將在本周的SC22上由美國(guó)計(jì)算機(jī)協(xié)會(huì)頒發(fā)。該協(xié)會(huì)代表著全球約10萬(wàn)名計(jì)算領(lǐng)域的專(zhuān)家,自2020年開(kāi)始向使用HPC推進(jìn)COVID-19研究的杰出研究員頒發(fā)特別獎(jiǎng)。

在一種只有四個(gè)字母的語(yǔ)言上訓(xùn)練大型語(yǔ)言模型

長(zhǎng)期以來(lái),LLM一直在接受人類(lèi)語(yǔ)言的訓(xùn)練,這些語(yǔ)言通常由幾十個(gè)字母組成,可以排列組合成數(shù)萬(wàn)個(gè)單詞,并連接成長(zhǎng)句和段落。而生物學(xué)語(yǔ)言只有四個(gè)代表核苷酸的字母,即DNA中的A、T、G和C,或RNA中的A、U、G和C。這些字母按不同順序排列成基因。

雖然較少的字母看似會(huì)降低AI學(xué)習(xí)的難度,但實(shí)際上生物學(xué)語(yǔ)言模型要復(fù)雜得多。這是因?yàn)槿祟?lèi)的基因組由超過(guò)30億個(gè)核苷酸組成,而冠狀病毒的基因組由大約3萬(wàn)個(gè)核苷酸組成,因此很難將基因組分解成不同、有意義的單位。

Ramanathan表示: “在理解基因組這一 ‘生命代碼’的過(guò)程中,我們所面對(duì)的一個(gè)主要挑戰(zhàn)是基因組中的龐大測(cè)序信息。核苷酸序列的意義可能會(huì)受另一序列的影響,以人類(lèi)的文本做類(lèi)比,這種影響的范圍不僅僅是文本中的下一句話或下一段話,而是相當(dāng)于一本書(shū)中的整個(gè)章節(jié)?!?/p>

參與該項(xiàng)目協(xié)作的NVIDIA研究員設(shè)計(jì)了一種分層擴(kuò)散方法,使LLM能夠?qū)⒓s1500個(gè)核苷酸的長(zhǎng)字符串當(dāng)作句子來(lái)處理。

論文共同作者、NVIDIA AI研究高級(jí)總監(jiān)、加州理工學(xué)院計(jì)算+數(shù)學(xué)科學(xué)系布倫講席教授Anima Anandkumar表示:“標(biāo)準(zhǔn)語(yǔ)言模型難以生成連貫的長(zhǎng)序列,也難以學(xué)習(xí)不同變異株的基本分布。我們開(kāi)發(fā)了一個(gè)在更高細(xì)節(jié)水平上運(yùn)作的擴(kuò)散模型,該模型使我們能夠生成現(xiàn)實(shí)中的變異株,并采集到更完善的統(tǒng)計(jì)數(shù)據(jù)?!?/p>

預(yù)測(cè)需要關(guān)注的新冠病毒變異株

該團(tuán)隊(duì)首先使用細(xì)菌和病毒生物信息學(xué)資源中心的開(kāi)源數(shù)據(jù),對(duì)來(lái)自原核生物(像細(xì)菌一樣的單細(xì)胞生物)超過(guò)1.1億個(gè)基因序列進(jìn)行了LLM預(yù)訓(xùn)練,然后使用150萬(wàn)個(gè)高質(zhì)量的新冠病毒基因組序列,對(duì)該模型進(jìn)行微調(diào)。

研究員還通過(guò)在更廣泛的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,確保其模型能夠在未來(lái)的項(xiàng)目中推廣到其他預(yù)測(cè)任務(wù),使其成為首批具備此能力的全基因組規(guī)模的模型之一。

在對(duì)COVID數(shù)據(jù)進(jìn)行了微調(diào)后,LLM就能夠區(qū)分病毒變異株的基因組序列。它還能夠生成自己的核苷酸序列,預(yù)測(cè)COVID基因組的潛在突變,這可以幫助科學(xué)家預(yù)測(cè)未來(lái)需要關(guān)注的變異株。

在長(zhǎng)達(dá)一年時(shí)間內(nèi)積累的SARS-CoV-2基因組數(shù)據(jù)的訓(xùn)練下,該模型可以推斷出各種病毒株之間的區(qū)別。左邊的每個(gè)點(diǎn)對(duì)應(yīng)一個(gè)已測(cè)序的SARS-CoV-2病毒株,并按變異株顏色編碼。右圖放大了該病毒的一個(gè)特定毒株,它捕捉到了該毒株特有的病毒蛋白進(jìn)化耦合關(guān)系。圖片由美國(guó)阿貢國(guó)家實(shí)驗(yàn)室的Bharat Kale、Max Zvyagin和Michael E. Papka提供。

Ramanathan表示: “大多數(shù)研究員一直在追蹤新冠病毒突刺蛋白的突變,尤其是與人類(lèi)細(xì)胞結(jié)合的域。但病毒基因組中還有其他蛋白質(zhì)也會(huì)經(jīng)歷頻繁的突變,所以了解這些蛋白質(zhì)十分重要?!?/p>

論文中提到,該模型還可以與AlphaFold、OpenFold等常見(jiàn)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型整合,幫助研究員模擬病毒結(jié)構(gòu),研究基因突變?nèi)绾斡绊懖《靖腥酒渌拗鞯哪芰?。OpenFold是NVIDIA BioNeMo LLM服務(wù)中包含的預(yù)訓(xùn)練語(yǔ)言模型之一。NVIDIA BioNeMo LLM服務(wù)面向的是致力于將LLM應(yīng)用于數(shù)字生物學(xué)和化學(xué)應(yīng)用的開(kāi)發(fā)者。

利用GPU加速超級(jí)計(jì)算機(jī)大幅加快AI訓(xùn)練速度

該團(tuán)隊(duì)在由NVIDIA A100 Tensor Core GPU驅(qū)動(dòng)的超級(jí)計(jì)算機(jī)上開(kāi)發(fā)AI模型,包括阿貢國(guó)家實(shí)驗(yàn)室的Polaris、美國(guó)能源部的Perlmutter以及NVIDIA的Selene系統(tǒng)。通過(guò)擴(kuò)展到這些強(qiáng)大的系統(tǒng),他們?cè)谟?xùn)練中實(shí)現(xiàn)了超過(guò)1500 exaflops的性能,創(chuàng)建了迄今為止最大的生物語(yǔ)言模型。

Ramanathan 表示: “我們?nèi)缃裉幚淼哪P陀卸噙_(dá)250億個(gè)參數(shù),預(yù)計(jì)這一數(shù)量未來(lái)還會(huì)大幅增加。模型的尺寸、基因序列的長(zhǎng)度、以及所需的訓(xùn)練數(shù)據(jù)量,都意味著我們的確需要搭載數(shù)千顆GPU的超級(jí)計(jì)算機(jī)來(lái)完成復(fù)雜的計(jì)算?!?/p>

研究員估計(jì),訓(xùn)練一個(gè)具有25億參數(shù)的模型版本,需要約4000個(gè)GPU耗時(shí)一個(gè)多月。該團(tuán)隊(duì)已經(jīng)在研究用于生物學(xué)的LLM,在公布論文和代碼之前,他們?cè)谶@個(gè)項(xiàng)目上已耗時(shí)約四個(gè)月。GitHub頁(yè)面上有供其他研究員在Polaris和Perlmutter上運(yùn)行該模型的說(shuō)明。

NVIDIA BioNeMo框架可在NVIDIA NGC中心上的GPU優(yōu)化軟件中搶先體驗(yàn)。該框架將幫助研究員在多個(gè)GPU上擴(kuò)展大型生物分子語(yǔ)言模型。作為NVIDIA Clara Discovery藥物研發(fā)工具集的一部分,該框架將支持化學(xué)、蛋白質(zhì)、DNA和RNA數(shù)據(jù)格式。

在SC22上蒞臨NVIDIA展臺(tái)并觀看以下特別演講回放:

頭圖是研究員的LLM所測(cè)序的新冠病毒株。每個(gè)點(diǎn)都按新冠病毒變異株進(jìn)行了顏色編碼。該圖由美國(guó)阿貢國(guó)家實(shí)驗(yàn)室的Bharat Kale、Max Zvyagin和Michael E. Papka提供。

英偉達(dá)

英偉達(dá)

NVIDIA(中國(guó)大陸譯名:英偉達(dá),港臺(tái)譯名:輝達(dá)),成立于1993年,是一家美國(guó)跨國(guó)科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專(zhuān)注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長(zhǎng)為一家提供全棧計(jì)算的人工智能公司,致力于開(kāi)發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車(chē)等領(lǐng)域的計(jì)算解決方案提供支持。

NVIDIA(中國(guó)大陸譯名:英偉達(dá),港臺(tái)譯名:輝達(dá)),成立于1993年,是一家美國(guó)跨國(guó)科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專(zhuān)注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長(zhǎng)為一家提供全棧計(jì)算的人工智能公司,致力于開(kāi)發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車(chē)等領(lǐng)域的計(jì)算解決方案提供支持。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜