加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 為什么需要存算一體?
    • 基于NOR Flash的存算一體
    • NOR Flash如何實現(xiàn)存算一體?
    • NOR Flash相比其他存算結構的優(yōu)勢
    • NOR Flash學術研究及產(chǎn)業(yè)應用進展
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

?存算一體:NOR Flash沖向新巔峰

2022/07/11
2224
閱讀需 17 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

特邀作者: 滕正如東南大學 微電子學院

基于 NOR Flash 的存算一體芯片優(yōu)點出眾,我們相信該類芯片有更美好的未來。

近年來,在算力急速增長的推動下,以神經(jīng)網(wǎng)絡為代表的人工智能迎來了新一輪的發(fā)展,并迅速在圖像視頻應用、自然語言處理及其他諸多領域取得了驚人的成就。尤其是邊緣計算在終端設備推理的興起為人工智能提供了大量的計算設備和數(shù)據(jù),使得人工智能具有了無限的可能。但是,神經(jīng)網(wǎng)絡對于龐大算力的需求和邊緣及終端側對于低功耗的需求之間難以調(diào)和的矛盾,嚴重阻礙了神經(jīng)網(wǎng)絡的進一步發(fā)展和應用,因此低功耗、高能效神經(jīng)網(wǎng)絡加速器成為了眾多企業(yè)、研究機構的研究重點。

在這樣的基礎上,存算一體孕育而生。

為什么需要存算一體?

2018 年,美國DARPA“電子復興計劃”明確提出不再依賴摩爾定律的等比例微縮道路,旨在尋求超越傳統(tǒng)馮·諾依曼計算架構的創(chuàng)新,利用新材料、新器件特性和集成技術,減少數(shù)據(jù)處理電路中移動數(shù)據(jù)的需求,研究新的計算拓撲架構用于數(shù)據(jù)存儲與處理,帶來計算性能的顯著提高。

與傳統(tǒng)的計算單元和存儲單元分離的馮諾依曼架構不同,存算一體技術可以把存儲單元同時用于計算和存儲,這樣就可以避免數(shù)據(jù)和計算結果在計算單元和存儲單元之間來回搬運引起的功耗和帶寬瓶頸,從而實現(xiàn)功耗的大大降低。

 

基于NOR Flash的存算一體

而基于 NOR Flash 的存算一體方案正是受到多方關注的一條技術路線。英特爾、博世美光、Lam Research、應用材料、微軟、亞馬遜、軟銀都投資了基于NOR Flash的存內(nèi)計算芯片。

NOR Flash的起源和技術發(fā)展

Nor是Flash一種架構方式。Flash存儲技術是在它之前的E2PROM (Electrically Erasable Programmable Read OnlyMemory)基礎上發(fā)展起來的存儲器,它跟E2PROM一樣,也是使用電學方法來存儲電荷的器件,只是E2PROM是使用兩個晶體管來構成,而Flash存儲陣列中的存儲單元是由一個晶體管組成的。所以Flash存儲器在器件集成度、數(shù)據(jù)容量和功耗低等性能上都比之前的器件有明顯的提高。

目前性價比最高的存儲器首推閃存,閃存主要有NOR和NAND兩種類型。NOR Flash 由英特爾公司于1988年最初推出。為了提高容量/價格比,東芝公司于1989年推出NAND Flash。但相比NOR Flash來說,兩種Flash技術各有優(yōu)、缺點以及各自適用的場合。NOR結構的特點是芯片內(nèi)執(zhí)行(XIP, eXecute In Place),這樣應用程序可以直接在Flash閃存內(nèi)運行,不必再把代碼讀到系統(tǒng)RAM中,節(jié)省了時間。NAND結構的特點能提供極高的單元密度,可以達到高存儲密度,并且增加寫入和擦除的速度。

NOR Flash的原理

浮柵晶體管的橫截面

 

NOR Flash的存儲單元是浮柵晶體管,在作為存儲使用的時候每個浮柵晶體管可以存儲1bit數(shù)據(jù)。它是在金屬-氧化物半導體場效應晶體管(MOSFET)的基礎上引入浮置柵極來存儲電荷而實現(xiàn)的。一個浮柵晶體管,由P型的襯底和在其上重摻雜的N型源極和漏極、控制柵極、由氧化物包圍的多晶硅浮柵組成。浮柵是由絕緣介質(zhì)層包裹起來的,浮柵和溝道之間的很薄的氧化物層被稱為隧道氧化層,兩個多晶硅柵之間的氧化物層被稱為柵氧化層,一般是氧化物-氮化物-氧化物層組成的多晶桂層間絕緣介質(zhì)。因此,其上的電荷會輕易地流失,因而浮柵晶體管能夠應用于NVM。

浮柵和控制柵可以用來控制源極和漏極之間溝道的形成:當浮柵處于無電荷狀態(tài)時,浮柵晶體管會如MOSFET—樣,當控制柵加高于閾值電壓(Threshold Voltage)的電壓時,溝道形成,浮柵晶體管處于導通狀態(tài),而控制柵上加的電壓低于閾值電壓時,浮柵晶體管處于截止狀態(tài);當浮柵上存儲一定量的電子后,由于浮柵的影響,會升高,浮柵晶體管更加難以導通。這樣,就可以通過這兩種狀態(tài)來存儲數(shù)據(jù),分別表示“1”和“0”,并且可以通過在柵極上加一個在兩種之間的電壓,根據(jù)流過的電流來讀取存儲在浮柵晶體管中的狀態(tài)。

浮柵上的電子則可以使用溝道熱電子注入(Channek Hot Electronic Injection, CHEI)FN隧穿(Fowler-NORdheim Tunneling)兩種方式來增加和移除。CHEI通過在柵極加電壓使得溝道反型,并在源極和漏極之間加高電壓使電子向漏極加速。其中有部分電子在整個過程中僥幸因為發(fā)生碰撞而獲得了足夠越過隧道氧化層勢壘的動能并到達浮柵,這樣,就使得浮柵中有了多余的電子。而FN隧穿則在控制柵和襯底之間加很高的負電壓,使得它們之間形成強電場以降低氧化層的勢壘寬度,增加電子隧穿的幾率,使得電子從浮柵回到襯底。使用CHEI增加浮柵電子的操作稱為“編程”,而使用FN隧穿移除電子的操作稱為“擦除”。

可見,浮柵晶體管可以近似等效于一個N溝道MOSFET在柵極連接一個電容,其電學特性就像閾值電壓可調(diào)的MOSFET,也具有截止(Cut-Off)、 弱反型( Weak-Inversion,亦稱Sub-threshold,亞閾值)、線性(Linear, 亦稱Triode,三極管,亦稱Ohmic,可變電阻)和飽和等工作模式,每種模式具有不同的特征。

NOR Flash陣列結構

 

NOR Flash中程序和數(shù)據(jù)可存放在同一芯片上,擁有獨立的數(shù)據(jù)總線和地址總線,能夠快速隨機讀取數(shù)據(jù),也允許系統(tǒng)直接從Flash中讀取代碼執(zhí)行,而不需要先將代碼下載至RAM中再執(zhí)行;可以單字節(jié)或單字編程,但不能單字節(jié)擦除,必須以塊為單位或?qū)φ瑘?zhí)行擦除操作,在對存儲器進行重新編程之前需要對塊或整片進行預編程和。

NOR Flash 以并行的方式連接存儲單元,具有分離的控制線、地址線和數(shù)據(jù)線、較快的讀速度、能夠提供片上執(zhí)行的功能,但寫操作和擦除操作的時間較長,且容量低、價格高。因此NOR Flash 多被用于手機、BIOS 芯片以及嵌入式系統(tǒng)中進行代碼存儲。

 

NOR Flash如何實現(xiàn)存算一體?

基于NOR Flash的存算一體基本原理是利用存儲單元的多值特性,通過器件本征的物理電氣行為(例如基爾霍夫定律歐姆定律)來實現(xiàn)多值MAC 運算。每個存儲單元可以看作一個可變電導/電阻,用來存儲網(wǎng)絡權重,當在每一行施加電流/電壓(激勵)時,每一列即可得到MAC 運算的電壓/電流值。

基于Flash的MAC運算基本原理

 

我們以基于Flash單元的電壓式模擬乘法器為例。模擬乘法器由兩個Flash單元構成,這兩個Flash管柵極(G)相連并接固定電壓,漏極(D)相連接電壓VDS,源極(S)的電流相減為輸出電流ID。外部輸入數(shù)據(jù)X經(jīng)過DAC(Digital to Analog Converter,數(shù)模轉換器)轉換為模擬電壓VDS,得到的輸出電流經(jīng)過ADC (Analog to Digital Converter,模數(shù)轉換器)轉換為數(shù)字信號輸出??梢允褂脙蓚€工作在線性區(qū)的Flash管實現(xiàn)模擬乘法。

電壓式模擬乘法器結構圖

 

NOR Flash相比其他存算結構的優(yōu)勢

Flash器件于1967年被施敏發(fā)明,在MOS管的柵極增加一個浮柵,通過改變浮柵中的電荷達到存儲數(shù)據(jù)的目的。經(jīng)過50多年的發(fā)展,浮柵器件的制造工藝已經(jīng)非常成熟,成品質(zhì)量穩(wěn)定。浮柵單元具有密度大,效率高的特點,適合作為實現(xiàn)存算一體架構的介質(zhì)。

存算結構特點對比

 

相比其他存算結構,NOR Flash有兩大突出優(yōu)勢。

其一,因為其長期的應用和發(fā)展,閃存技術已經(jīng)非常成熟,NOR Flash 已被大量應用于手機、BIOS 芯片以及嵌入式系統(tǒng)中進行代碼存儲。美光(Micron) NOR Flash 產(chǎn)品線總監(jiān) Richard De Caro 曾表示,在傳統(tǒng)的精密電子產(chǎn) 品的生產(chǎn)中,NORFlash的作用舉足輕重,涵蓋了各個細分市場。根據(jù) Richard De Caro 的估算,每年 NOR Flash 的出貨量超過 60 億顆。NOR Flash成本低于其他存算結構,技術成熟,已有量產(chǎn)芯片出現(xiàn)在市場。

其二,NOR Flash屬于非易失性存儲器,可以直接存儲網(wǎng)絡權重,因此不需要片外存儲器,減小芯片成本。例如Mythic的產(chǎn)品 MP10304 PCIe并不需要額外的片外存儲;同時,非易失性可以保證數(shù)據(jù)掉電不丟失,從而實現(xiàn)即時開機/關機操作,減小靜態(tài)功耗,延長待機時間,非常適用于功耗受限的邊緣終端設備,例如國內(nèi)企業(yè)知存科技量產(chǎn)的芯片WTM2101專注于可穿戴設備,和現(xiàn)有芯片在AI算力上有數(shù)十倍到百倍的提升。

 

NOR Flash學術研究及產(chǎn)業(yè)應用進展

在學術方面,國內(nèi)外高校都有研究。美國加州大學圣塔芭芭拉分校的研究團隊通過修改NOR Flash陣列結構實現(xiàn)了對單個Flashcell的編程擦除操作,并在此基礎上構建了一個包含兩層全連接層的神經(jīng)網(wǎng)絡,該計算陣列識別一張圖片能耗低于20nJ。并且該團隊還進一步設計了計算精度為5Bit,大小為400X400的由Flash構成的乘累加單元。北京大學的研究團隊提出了針對大尺寸圖像卷積的分塊計算方式,實現(xiàn)了對大尺寸圖像的二維卷積操作。

在產(chǎn)業(yè)方面,國內(nèi)外企業(yè)中基于NOR Flash的存算一體都正飛速發(fā)展,且有量產(chǎn)芯片出現(xiàn)在市場。目前存算一體技術處于多種存儲介質(zhì)百花齊放的格局,如Flash、SRAM、MRAM等等。如今選擇SRAM介質(zhì)陣營的主要有蘋芯科技、后摩智能、九天睿芯;MRAM方面,三星電子于2022完成世界上第一個基于 MRAM的內(nèi)存計算流片,并發(fā)表在《nature》,而Flash陣營的代表玩家則有美國的Mythic,與國內(nèi)知存科技、合肥恒爍。

國外相關領域的佼佼者是美國公司Mythic,該公司于2012年成立,專注于研發(fā)深度學習的神經(jīng)網(wǎng)絡芯片的公司,其推出的新型的芯片和軟件,無需通過云端就能在本地設備中實現(xiàn)語音控制計算機視覺和其他的AI技術。在2019年推出基于Flash 的神經(jīng)網(wǎng)絡處理單元IPU。IPU的性能達到4TPOS/W。Mythic于2020 年 11 月推出業(yè)界首款模擬矩陣處理器 (Mythic AMP™)。并于2021年推出 MP10304 PCIe 卡,該卡具有四個 M1076 Mythic 模擬矩陣處理器 (AMP),提供高達 100 TOP 的 AI 性能,且不需要片外存儲器,減小芯片成本,并在不到 25W 的功率下支持多達 3.2 億個權重,用于復雜的 AI 工作負載。Mythic著重在較小的功耗下實現(xiàn)高性能的神經(jīng)計算。

Mythic MP10304 Quad-Amp PCIE

 

國內(nèi)企業(yè)也在發(fā)力基于NOR Flash的存算一體。其中的領先者是知存科技。知存科技公司與科大訊飛合作,于2016年發(fā)布了基于Flash的MemCore001芯片,支持智能語言識別、語音降噪等多種智能語音應用。2018年,知存科技即針對智能語音應用場景設計了國際領先的高精度、低功耗Flash存算一體芯片架構,并首次應用MemCore001/MemCore001P系列芯片。并于2022年3月宣布其WTM2101芯片正式量產(chǎn)并推向市場,WTM2101的AI算力高達50Gops,相較于可穿戴設備現(xiàn)有芯片在AI算力上有數(shù)十倍到百倍的提升。

知存科技的存算一體模塊基于高密度非易失性存儲器,8-bit量化的深度學習算法參數(shù)量支持高達1.8M個,可同時運行2-3個高性能模型。知存科技著重在可穿戴設備方向,且已于今年實現(xiàn)量產(chǎn)芯片。

國內(nèi)的另一家企業(yè)是來自合肥的恒爍半導體科技公司,其于2019 年底宣布公司第一款CiNOR V1版在武漢新芯65nm NOR Flash制程上已經(jīng)完成芯片設計并流片,成功驗證了CiNOR芯片原理和可行性,并實現(xiàn)了包括手寫識別、ECG檢測和人臉檢測等幾項應用。

基于 NOR Flash 的存算一體芯片避免了傳統(tǒng) AI 架構芯片碰到的“存儲墻”和“功率墻”瓶頸,顯著提高了運算效率,并且大幅降低功耗,同時 NOR Flash 帶來制造成本上的競爭優(yōu)勢,成本低于其他存算結構,技術成熟,已有量產(chǎn)芯片出現(xiàn)在市場,且Flash屬于非易失性存儲器,可以直接存儲網(wǎng)絡權重,因此不需要片外存儲器,減小芯片成本。我們相信該類芯片會有更好的未來。

相關推薦

電子產(chǎn)業(yè)圖譜

公眾號:半導體產(chǎn)業(yè)縱橫。立足產(chǎn)業(yè)視角,提供及時、專業(yè)、深度的前沿洞見、技術速遞、趨勢解析,鏈接產(chǎn)業(yè)資源,構建IC生態(tài)圈,賦能中國半導體產(chǎn)業(yè),我們一直在路上。