在未來(lái),DNA存儲(chǔ)芯片能否替代傳統(tǒng)存儲(chǔ)硬盤(pán)?
我們正處于數(shù)據(jù)爆炸的時(shí)代,全球數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)!國(guó)際數(shù)據(jù)機(jī)構(gòu)IDC預(yù)測(cè),2025年,全球數(shù)據(jù)量將達(dá)到175ZB,5年平均復(fù)合增長(zhǎng)率8%。1ZB等于1萬(wàn)億GB,如果175ZB數(shù)據(jù)用容量1GB的移動(dòng)硬盤(pán)來(lái)裝,至少需要175萬(wàn)億個(gè)硬盤(pán)。
在未來(lái),數(shù)據(jù)存儲(chǔ)問(wèn)題將成為互聯(lián)網(wǎng)發(fā)展的痛點(diǎn)。為了解決數(shù)據(jù)存儲(chǔ)這一難題,受生物學(xué)的啟發(fā),研究人員瞄準(zhǔn)了人體內(nèi)的DNA。最大的人類(lèi)染色體含有近2.5億個(gè)堿基對(duì),如果每個(gè)堿基對(duì)上都能存儲(chǔ)數(shù)據(jù),理論上,麻省理工學(xué)院生物工程教授Mark Bathe說(shuō),一個(gè)裝滿(mǎn)DNA的咖啡杯就可以存儲(chǔ)世界上所有的數(shù)據(jù)。
這樣看來(lái),存儲(chǔ)175ZB的數(shù)據(jù)也就不在話(huà)下了。這樣一個(gè)前景可觀的新興存儲(chǔ)技術(shù),在今年3月被寫(xiě)進(jìn)“十四五”規(guī)劃綱要草案中。不僅如此,2021年層出不窮的相關(guān)研究及落地進(jìn)展,令DNA存儲(chǔ)技術(shù)愈發(fā)受到關(guān)注。
例如1月11日,Nature子刊上發(fā)表了哥倫比亞大學(xué)將hello world翻譯成堿基語(yǔ)言錄入大腸桿菌DNA的相關(guān)論文;5月26日,由中科院深圳先進(jìn)技術(shù)研究院孵化的中科碳元成立,專(zhuān)注于推進(jìn)DNA數(shù)據(jù)存儲(chǔ)研發(fā)及商業(yè)化;11月12日,東南大學(xué)劉宏團(tuán)隊(duì)將校訓(xùn)“止于至善”寫(xiě)進(jìn)DNA的論文發(fā)表于Science Advances;11月24日,微軟公布首個(gè)納米級(jí)DNA存儲(chǔ)寫(xiě)入器……需要注意的是,廣義上的DNA芯片是基因組學(xué)和遺傳學(xué)研究的工具,指在固相支持物上原位合成寡核苷酸或者直接將大量預(yù)先制備的DNA探針以顯微打印的方式有序地固化于支持物表面,然后與標(biāo)記的樣品雜交。因?yàn)槠渲С治锉砻娉J?a class="article-link" target="_blank" href="/baike/1386991.html">計(jì)算機(jī)芯片,因此稱(chēng)其為DNA芯片。
DNA芯片類(lèi)型多樣,包括檢測(cè)基因、染色體或用于臨床診斷用的芯片,而其中模仿DNA分子結(jié)構(gòu)進(jìn)行數(shù)據(jù)存儲(chǔ)的是我們今天討論的重點(diǎn),也就是DNA存儲(chǔ)芯片。
01.堿基與二進(jìn)制對(duì)應(yīng),人手長(zhǎng)的DNA鏈可存儲(chǔ)10億G數(shù)據(jù)
從遠(yuǎn)古石墻上刻的圖案到文字的出現(xiàn),再到最重要的信息載體書(shū)籍的產(chǎn)生,我們產(chǎn)生的信息其實(shí)并不多。但自從進(jìn)入信息時(shí)代,人類(lèi)在過(guò)去50年里記錄的信息已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)過(guò)去2000年的信息。我們處在信息爆炸的大數(shù)據(jù)時(shí)代,所有互聯(lián)網(wǎng)中的信息都作為數(shù)據(jù)保存下來(lái),從網(wǎng)頁(yè)、應(yīng)用程序到安防、衛(wèi)星領(lǐng)域應(yīng)有盡有。
根據(jù)國(guó)際數(shù)據(jù)組織IDC的數(shù)據(jù),2013年至2015年全球大數(shù)據(jù)存儲(chǔ)量分別為4.3ZB、6.6ZB、8.6ZB,增速維持在40%左右,而到2016年全球大數(shù)據(jù)存儲(chǔ)量達(dá)到16.1ZB,增長(zhǎng)率達(dá)到87.21%。2017年至2019年全球大數(shù)據(jù)存儲(chǔ)量分別為21.6ZB、33ZB、41ZB,2020年全球數(shù)據(jù)量達(dá)到了60ZB。在大數(shù)據(jù)領(lǐng)域不斷發(fā)展的同時(shí),為了滿(mǎn)足海量的數(shù)據(jù)存儲(chǔ)需求,存儲(chǔ)方式也在不斷發(fā)生變化。
▲IDC監(jiān)測(cè)2015-2020年全球數(shù)據(jù)量變化趨勢(shì)以及2025年預(yù)測(cè)
DNA是儲(chǔ)存遺傳信息的載體,攜帶有合成RNA和蛋白質(zhì)所必需的遺傳信息,它可以對(duì)生物的所有信息進(jìn)行編碼。上世紀(jì)50年代,就有研究人員發(fā)現(xiàn)了生物特征和人造物體的關(guān)系。DNA分子由四種堿基組成,數(shù)據(jù)由二進(jìn)制0和1組成;DNA用來(lái)儲(chǔ)存遺傳信息,數(shù)據(jù)正好需要一個(gè)介質(zhì)存儲(chǔ),由此蘇聯(lián)物理學(xué)家米哈伊爾·薩莫伊洛維奇·內(nèi)曼(Mikhail Samoilovich Neiman)想到,是否可以參考DNA結(jié)構(gòu)來(lái)存儲(chǔ)數(shù)據(jù)?
與傳統(tǒng)的存儲(chǔ)介質(zhì)不同,DNA存儲(chǔ)技術(shù)有如下顯著優(yōu)勢(shì)。首先是DNA存儲(chǔ)密度高。一個(gè)DNA分子可以保留一個(gè)物種的全部遺傳信息,最大的人類(lèi)染色體含有近2.5億個(gè)堿基對(duì),那么就意味著一條和人手差不多長(zhǎng)的DNA鏈,就可以存儲(chǔ)1EB(1EB=10.74億G)數(shù)據(jù)。
與硬盤(pán)和閃存的數(shù)據(jù)存儲(chǔ)密度相比,硬盤(pán)存儲(chǔ)每立方厘米約為1013位,閃存存儲(chǔ)約為1016位,而DNA存儲(chǔ)的密度約為1019位。其次是DNA分子存儲(chǔ)具有穩(wěn)定性。今年2月,國(guó)際頂級(jí)學(xué)術(shù)期刊Nature上的一篇論文稱(chēng)古生物學(xué)家在西伯利亞?wèn)|北部的永久凍土層中提取到距今120萬(wàn)年猛犸象的遺傳物質(zhì),并對(duì)其DNA進(jìn)行了解析,這也進(jìn)一步刷新了DNA分子的保存年代紀(jì)錄。
據(jù)悉,DNA至少可保留上百年的數(shù)據(jù),相比之下,硬盤(pán)、磁帶的數(shù)據(jù)最多只能保留約10年。最后,DNA存儲(chǔ)維護(hù)成本低。以DNA形式存儲(chǔ)的數(shù)據(jù)易于維護(hù),和傳統(tǒng)的數(shù)據(jù)中心不同,不需要大量的人力、財(cái)力投入,僅需要保存在低溫環(huán)境中。在能耗方面,1GB的數(shù)據(jù)硬盤(pán)存儲(chǔ)能耗約為0.04W,而DNA存儲(chǔ)的能耗則小于10-10W。
02.低成本擴(kuò)大規(guī)??煞胖脭?shù)百萬(wàn)個(gè)DNA序列
上個(gè)世紀(jì)50年代,科學(xué)家已經(jīng)提出創(chuàng)建人造物體與微觀世界的生物特征相似的想法,并且認(rèn)為該人造物體將具有更加廣泛的能力。不到十年,蘇聯(lián)物理學(xué)家米哈伊爾·薩莫伊洛維奇·內(nèi)曼(Mikhail Samoilovich Neiman)就獨(dú)立提出了可以利用DNA和RNA分子來(lái)進(jìn)行信息記錄、存儲(chǔ)和檢索的可能性。
DNA進(jìn)行數(shù)據(jù)存儲(chǔ)的應(yīng)用真正開(kāi)始于1988年,藝術(shù)家喬戴維斯和哈佛大學(xué)的研究人員合作,在大腸桿菌的DNA序列中,將一張代表生命和女性地球的古代日耳曼符文圖片,通過(guò)5x7的矩陣存儲(chǔ)到DNA序列中。他們用二進(jìn)制中的1代表圖片中的暗像素,0代表圖片中的亮像素。在之后的研究中,研究人員提出了多種DNA存儲(chǔ)的編碼方式。
2011年,研究團(tuán)隊(duì)對(duì)一本659KB的書(shū)籍進(jìn)行編碼,通過(guò)一對(duì)一對(duì)應(yīng),由腺嘌呤或胞嘧啶表示二進(jìn)制中的0,鳥(niǎo)嘌呤或胸腺嘧啶表示1。然而,最后研究人員檢查數(shù)據(jù)存儲(chǔ)結(jié)果時(shí)發(fā)現(xiàn),在DNA中出現(xiàn)了22個(gè)錯(cuò)誤。這種一一對(duì)應(yīng)的編碼方式的精度較低。DNA是由四種堿基結(jié)合成堿基對(duì),并組成螺旋結(jié)構(gòu)。四種堿基分別是腺嘌呤(A)、胸腺嘧啶(T)、鳥(niǎo)嘌呤(G)、胞嘧啶(C),然后依據(jù)堿基互補(bǔ)配對(duì)原則,來(lái)排列DNA分子儲(chǔ)存遺傳信息。這四個(gè)代碼也為DNA存儲(chǔ)芯片提供了一個(gè)合適的編碼環(huán)境。
▲DNA分子結(jié)構(gòu)示意圖
DNA存儲(chǔ)技術(shù)包括信息編碼、存儲(chǔ)、檢索、解碼四個(gè)步驟。在計(jì)算機(jī)中,數(shù)據(jù)存儲(chǔ)需要用二進(jìn)制0和1來(lái)表示,使用DNA來(lái)存儲(chǔ)數(shù)據(jù)首先需要將0和1轉(zhuǎn)化為DNA中的四個(gè)堿基A、C、T、G,創(chuàng)建具有正確堿基序列的DNA螺旋結(jié)構(gòu)。合成DNA后在體內(nèi)或體外進(jìn)行存儲(chǔ)。
在解碼時(shí),DNA測(cè)序儀會(huì)轉(zhuǎn)錄該DNA結(jié)構(gòu)中的堿基序列,通過(guò)解碼軟件將其轉(zhuǎn)化為0和1,還原數(shù)據(jù)信息。2012年,哈佛大學(xué)的研究團(tuán)隊(duì)證實(shí),DNA可以作為一種和硬盤(pán)驅(qū)動(dòng)器、磁帶類(lèi)似的存儲(chǔ)介質(zhì)。他們通過(guò)DNA對(duì)數(shù)字信息進(jìn)行編碼,包括53400字節(jié)的HTML草稿,11張JPG圖片和一個(gè)JavaScript程序,利用位與堿基一對(duì)一映射,但這種方式會(huì)使得相同堿基長(zhǎng)時(shí)間運(yùn)行,測(cè)序過(guò)程容易出錯(cuò)。
這種簡(jiǎn)單的一對(duì)一編碼形式,在2013年得到了突破。歐洲生物信息學(xué)研究所(EBI)的研究人員在論文中稱(chēng),他們已經(jīng)實(shí)現(xiàn)了超過(guò)500萬(wàn)位數(shù)據(jù)的存儲(chǔ)、檢索和復(fù)制,并且所有DNA文件都以99.99%到100%的準(zhǔn)確度再現(xiàn)了信息。在編碼過(guò)程中,研究小組加入了糾錯(cuò)編碼方案,并采用了可通過(guò)序列識(shí)別的重疊短寡核苷酸的編碼方式。此后,哥倫比亞大學(xué)、華盛頓大學(xué)、帝國(guó)理工學(xué)院等研究團(tuán)隊(duì)都開(kāi)展了一系列研究。
為了證明DNA編碼數(shù)據(jù)的長(zhǎng)期穩(wěn)定性,2015年2月4日,蘇黎世聯(lián)邦理工學(xué)院的研究人員在國(guó)際頂級(jí)期刊Angewandte Chemie International Edition上發(fā)表了相關(guān)論文,研究人員通過(guò)Reed-Solomon糾錯(cuò)編碼和溶膠、凝膠將DNA封裝在二氧化硅玻璃球中來(lái)增加冗余,而這可能是DNA存儲(chǔ)芯片的最早期形態(tài)。
2021年11月起,多個(gè)研究團(tuán)隊(duì)公布了DNA存儲(chǔ)芯片研究的新進(jìn)展,包括我國(guó)東南大學(xué)、微軟研究院、伊利亞諾州西北大學(xué)以及佐治亞理工學(xué)院的研究小組。11月12日,我國(guó)東南大學(xué)生物科學(xué)與醫(yī)學(xué)工程學(xué)院、生物電子學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室的劉宏團(tuán)隊(duì)成功將校訓(xùn) “止于至善” 存入一段DNA序列中,該論文發(fā)表于Science Advances。
為了實(shí)現(xiàn)DNA存儲(chǔ)的微型化、集成化、自動(dòng)化,該研究小組對(duì)測(cè)序過(guò)程進(jìn)行了優(yōu)化?;陔娀瘜W(xué)的單電極DNA合成和測(cè)序方法,通過(guò)電化學(xué)脫保護(hù)技術(shù)改進(jìn)傳統(tǒng)亞磷酰胺化學(xué)合成方法,并基于電荷震蕩現(xiàn)象對(duì)電極表面的DNA分子進(jìn)行測(cè)序,成功將校訓(xùn)進(jìn)行編碼和解碼。
▲劉宏團(tuán)隊(duì)基于電化學(xué)DNA合成與測(cè)序的DNA數(shù)據(jù)存儲(chǔ)系統(tǒng)流程圖(圖片來(lái)源為東南大學(xué)官網(wǎng))
11月24日,微軟研究院與華盛頓大學(xué)分子信息系統(tǒng)實(shí)驗(yàn)室(MISL)合作在DNA存儲(chǔ)上取得突破的論文發(fā)表于Science Advances上,該研究小組公布首個(gè)納米級(jí)DNA存儲(chǔ)寫(xiě)入器,DNA芯片上的分子控制器和DNA寫(xiě)入配有PCIe接口,可以一次性構(gòu)建四股合成DNA,產(chǎn)生包含100個(gè)堿基的DNA鏈。微軟研究院稱(chēng),更長(zhǎng)的DNA鏈會(huì)容易出現(xiàn)錯(cuò)誤,但隨著硬件的發(fā)展,這都會(huì)得到改進(jìn)。
該項(xiàng)實(shí)驗(yàn)證明了DNA螺旋結(jié)構(gòu)擴(kuò)大存儲(chǔ)規(guī)模的可能性。今年11月29日,伊利諾伊州西北大學(xué)合成生物學(xué)中心提出了將信息記錄到DNA的新方法發(fā)布于《基因組學(xué)研究(Technology Networks)》期刊中,在編碼環(huán)節(jié)他們?cè)噲D通過(guò)DNA本身具有的能力來(lái)創(chuàng)建一種新的數(shù)據(jù)存儲(chǔ)解決方案。
在實(shí)驗(yàn)過(guò)程中,他們使用一種新的酶促系統(tǒng)來(lái)合成DNA,將快速變化的環(huán)境信號(hào)直接記錄到DNA序列中。西北大學(xué)工程學(xué)教授Keith EJ Tyo稱(chēng),通過(guò)直接控制合成DNA的酶,可以實(shí)現(xiàn)提前表達(dá)和連續(xù)存儲(chǔ)信息。為了使DNA數(shù)據(jù)存儲(chǔ)在擴(kuò)大存儲(chǔ)規(guī)模的同時(shí)能降低成本,12月1日,佐治亞理工學(xué)院(GTRI)高級(jí)研究科學(xué)家尼古拉斯·吉斯(Nicholas Guise)在接受外媒英國(guó)廣播公司(BBC)采訪(fǎng)時(shí)說(shuō):“我們新芯片上的功能密度大約比當(dāng)前的商業(yè)設(shè)備高出100倍。”他們?cè)O(shè)計(jì)的芯片可以以極低的成本,通過(guò)超密集格式使DNA鏈實(shí)現(xiàn)增長(zhǎng),獲得大規(guī)格的存儲(chǔ)容量。
這個(gè)微芯片配備了10組幾百納米深的“微孔”,使得DNA分子在這中間平行生長(zhǎng),最終在芯片上積壓了數(shù)百萬(wàn)個(gè)DNA序列。相比于傳統(tǒng)的合成DNA制造過(guò)程,這種方法采用電化學(xué)局部激活合成,成本更加低廉。
▲佐治亞理工學(xué)院(GTRI)研究小組實(shí)驗(yàn)編碼解碼過(guò)程(圖片來(lái)源為論文插圖)
03.合成2MB需要7000美元讀取需要2000美元
不斷的研究表明,DNA存儲(chǔ)技術(shù)將成為跨時(shí)代的存儲(chǔ)方式。但從上世紀(jì)50年代提出至今,其發(fā)展一直沒(méi)有重大的實(shí)質(zhì)性進(jìn)展。微軟研究院作為DNA數(shù)據(jù)存儲(chǔ)的早期入局者,2015年開(kāi)始進(jìn)行相關(guān)研究,直到2019年才有研發(fā)進(jìn)展,他們展示了一個(gè)全自動(dòng)系統(tǒng)來(lái)編碼和解碼DNA中的數(shù)據(jù)信息。DNA存儲(chǔ)芯片能夠?qū)崿F(xiàn)高密度、長(zhǎng)時(shí)間的存儲(chǔ)特性,但目前該項(xiàng)技術(shù)還不能廣泛運(yùn)用于計(jì)算機(jī)領(lǐng)域,目前主要針對(duì)一些不常用但需要保存的內(nèi)容。
DNA存儲(chǔ)芯片無(wú)法商業(yè)化,大概有以下幾點(diǎn)原因。首先,DNA存儲(chǔ)數(shù)據(jù)的寫(xiě)入和讀取成本高昂。2017年哥倫比亞大學(xué)的實(shí)驗(yàn)顯示,合成2MB的DNA數(shù)據(jù)需要7000美元,而讀取數(shù)據(jù)需要2000美元,盡管這相比于2013年每兆12400美元的成本已經(jīng)大大降低,但如果用戶(hù)需要以DNA形式儲(chǔ)存1GB的電影,編碼大約需要花費(fèi)358萬(wàn)美元,而讀取數(shù)據(jù)還需要102萬(wàn)美元。其次,DNA存儲(chǔ)數(shù)據(jù)的解碼過(guò)程需要大型工具。目前DNA存儲(chǔ)技術(shù)的解碼過(guò)程,還需要依賴(lài)測(cè)序儀對(duì)DNA分子進(jìn)行排序,市面上量產(chǎn)的測(cè)序儀大多都用于小型實(shí)驗(yàn)室、臨床應(yīng)用等時(shí)效性要求較高的場(chǎng)景,距日常使用還很遠(yuǎn)。
▲測(cè)序服務(wù)供應(yīng)商Illumina的測(cè)序儀產(chǎn)品iSeq 100(圖片來(lái)源為Illumina官網(wǎng))
此外,DNA存儲(chǔ)技術(shù)的讀寫(xiě)速度慢。2021年12月初,佐治亞理工學(xué)院的研究將DNA存儲(chǔ)速度提升到了每天寫(xiě)入20GB數(shù)據(jù),目前固態(tài)硬盤(pán)的讀寫(xiě)速度大約為每秒500MB。IDC《數(shù)據(jù)時(shí)代2025》的報(bào)告顯示,全球每年產(chǎn)生的數(shù)據(jù)在2025年將達(dá)到175ZB,相當(dāng)于每天產(chǎn)生491EB的數(shù)據(jù)。即使DNA存儲(chǔ)芯片的密度足夠大,其實(shí)時(shí)讀取速度也無(wú)法滿(mǎn)足當(dāng)前的數(shù)據(jù)存儲(chǔ)需求。DNA存儲(chǔ)芯片是未來(lái)大容量存儲(chǔ)較為理想的介質(zhì),目前的研究進(jìn)展大部分都處于概念驗(yàn)證階段,其硬件設(shè)備的落地還需要很長(zhǎng)一段時(shí)間。
04.結(jié)語(yǔ):DNA存儲(chǔ)商業(yè)化的關(guān)鍵,實(shí)現(xiàn)低成本、高密度
DNA存儲(chǔ)芯片存儲(chǔ)密度高、穩(wěn)定性高、易于維護(hù)的優(yōu)勢(shì)決定了它成為下一代存儲(chǔ)設(shè)備的可能。不過(guò)該項(xiàng)技術(shù)的進(jìn)一步商業(yè)化還有很多限制,例如成本高昂、存儲(chǔ)環(huán)境限制較多、實(shí)時(shí)讀取速度慢等,這些都表明其變成主流存儲(chǔ)設(shè)備還有很長(zhǎng)一段路要走。
我們處于數(shù)字時(shí)代,從智能手機(jī)、平板、PC到可穿戴設(shè)備每天都會(huì)產(chǎn)生大量信息,因此這個(gè)現(xiàn)實(shí)條件決定,找到性能要求更高且更加低成本的存儲(chǔ)設(shè)備迫在眉睫。
DNA的半衰期為521年,在一個(gè)冰冷或合適的條件下,DNA可以持續(xù)存在數(shù)十萬(wàn)年,甚至幾百萬(wàn)年,如果DNA存儲(chǔ)技術(shù)真正實(shí)現(xiàn)商用,在未來(lái),我們的數(shù)據(jù)檔案可能將變成“化石”留存下來(lái)。
作者 | 程茜
編輯 | Panken