近日,三星電子在頂級學(xué)術(shù)期刊 Nature 上發(fā)表了全球首個基于 MRAM(磁性隨機存儲器)的存內(nèi)計算研究。
存內(nèi)計算由于毋需數(shù)據(jù)在存儲器和處理器間移動,大大降低了 AI 計算的功耗,被視作邊緣 AI 計算的一項前沿研究。
新計算架構(gòu)填補MRAM空白
存算一體化技術(shù)路線,處于多種存儲介質(zhì)百花齊放的格局。根據(jù)存儲器介質(zhì)的不同,目前存算一體芯片的主流研發(fā)集中在
易失性存儲器,如SRAM、DRAM
非易失性存儲器,如RRAM,PCM,MRAM與閃存等
其中比較成熟的是以SRAM和MRAM為代表的通用近存計算架構(gòu),這種方案通常采用同構(gòu)眾核的架構(gòu),每個存儲計算核(MPU)包含:
計算引擎(Processing Engine, PE)
緩存(Cache)
控制(CTRL)
輸入輸出(Inout/Output, I/O)
非易失性的RRAM(電阻式隨機存取存儲器)和PRAM(相變隨機存取存儲器)是存內(nèi)計算最常用的兩類存儲器。對比其他存儲器:
MRAM磁阻內(nèi)存在運行速度、壽命、量產(chǎn)方面都有明顯優(yōu)勢
功耗也遠低于傳統(tǒng)DRAM
還具有非易失的特點,即斷電不會丟失數(shù)據(jù)
不過一直以來,MRAM磁阻內(nèi)存很難用于內(nèi)存內(nèi)計算,因為它在標(biāo)準(zhǔn)的內(nèi)存內(nèi)計算架構(gòu)中無法發(fā)揮低功耗優(yōu)勢。
三星電子的研究人員構(gòu)建了一種基于MRAM的新存內(nèi)計算架構(gòu),填補了這種空白。通過結(jié)構(gòu)創(chuàng)新,實現(xiàn)了基于MRAM(磁阻隨機存取存儲器)的內(nèi)存內(nèi)計算(In-Memory Computing),進一步拓展了三星的下一代低功耗人工智能芯片技術(shù)的前沿領(lǐng)域。
三星研究團隊設(shè)計了一種名為“電阻總和”(resistance sum)的新型內(nèi)存內(nèi)計算架構(gòu),取代標(biāo)準(zhǔn)的“電流總和”(current-sum)架構(gòu),成功開發(fā)了一種能演示內(nèi)存內(nèi)計算架構(gòu)的MRAM陣列芯片,命名為“用于內(nèi)存內(nèi)計算的磁阻內(nèi)存交叉陣列”(crossbar array of magnetoresistive memory devices for in-memory computing)。
這一陣列成功解決了單個MRAM器件的小電阻問題,從而降低功耗,實現(xiàn)了基于MRAM的內(nèi)存內(nèi)計算。按照三星的說法,在執(zhí)行AI計算時,MRAM內(nèi)存內(nèi)計算可以做到98%的筆跡識別成功率、93%的人臉識別準(zhǔn)確率。
論文特別寫道,該研究并非和基于其他存儲器的存內(nèi)計算架構(gòu)競爭。到目前為止,沒有一種存儲器類型在電子產(chǎn)品中占據(jù)絕對主導(dǎo),因為不同類型的存儲器各有自身的優(yōu)點和缺點。因此,基于不同存儲器的存內(nèi)計算也可能發(fā)展成不同的架構(gòu)。從這個角度看,三星電子通過填補基于MRAM存儲器的存內(nèi)計算架構(gòu)空白,有助于存內(nèi)計算發(fā)展。
如下圖所示,這里緩存可以是SRAM、MRAM或類似的高速隨機存儲器。各個MPU之間通過片上網(wǎng)絡(luò)(Network-on-Chip, NoC)進行連接。每個MPU訪問各自的緩存,可以實現(xiàn)高性能并行運算。
基于高速緩存的通用近存計算架構(gòu)
基于MRAM的存算一體主要有兩種方案:
第一種方案是利用輔助外圍電路,跟上述SRAM存算一體類似,如圖(a)
第二種方案是直接利用存儲單元實現(xiàn)布爾邏輯計算,如圖(b)
一種典型的可重構(gòu)存算一體實現(xiàn)方案,其可以在存儲應(yīng)用與存算一體應(yīng)用之間進行切換
由于RRAM/PCM/MRAM非易失性電阻式存儲原理,其具有不同的電路實現(xiàn)方式
這種方案直接利用存儲單元的輸入輸出操作進行邏輯運算
根據(jù)不同存儲器存儲單元的結(jié)構(gòu)與操作方法不同,可以有不同的實現(xiàn)方式
基于RRAM/PCM/MRAM的存算一體基本原理
(a)利用外圍電路方案
(b)利用存儲單元方案
未來或可用于生物神經(jīng)元網(wǎng)絡(luò)
對于這項研究,研究人員寫道,MRAM陣列運行存內(nèi)計算的一個重要挑戰(zhàn)是構(gòu)建AI SoC(片上系統(tǒng)),將許多陣列和數(shù)據(jù)轉(zhuǎn)換器、數(shù)字電子設(shè)備進行集成。研究人員還強調(diào),寬泛來說,內(nèi)存陣列不僅可以用來運算神經(jīng)網(wǎng)絡(luò)算法,也可以作為潛在的生物神經(jīng)元網(wǎng)絡(luò)載體。
2021年9月,三星電子和哈佛聯(lián)合在Nature子刊Nature Electronics上發(fā)表了名為《Neuromorphic electronics based on copying and pasting the brain(基于復(fù)制和粘貼大腦的神經(jīng)形態(tài)電子學(xué))》的論文,提出了一種將大腦神經(jīng)元連接圖(neuronal wiring map)“復(fù)制、粘貼”到高密度3維存儲網(wǎng)絡(luò)上的可能。
三星此前“復(fù)制、粘貼”大腦的研究(圖片來源:Nature)
MRAM陣列研究的第一作者Seungchul Jung稱,存內(nèi)計算與人類大腦的計算類似,因為人類的計算也發(fā)生在記憶或突觸網(wǎng)絡(luò)中。雖然MRAM陣列當(dāng)前的計算目的并非模仿大腦,但這種固態(tài)存儲網(wǎng)絡(luò)將來可能會被用作模擬大腦突觸的平臺。
為什么要提出存算一體
早在1992年,中國工程院院士許居衍便預(yù)測,2014-2017年,人類將進入硅技術(shù)生命曲線上的拐點,即將進入“后摩爾時代”。現(xiàn)有馮諾依曼計算系統(tǒng)采用存儲和運算分離的架構(gòu),存在“存儲墻”與“功耗墻”瓶頸,嚴(yán)重制約系統(tǒng)算力和能效的提升。人工智能的發(fā)展已經(jīng)被算力不足,能效過低約束。
摩爾定律及AI算法算力的演進發(fā)展
在馮·諾依曼架構(gòu)中,存儲器與處理器是兩個完全分離的單元,處理器根據(jù)指令從存儲器中讀取數(shù)據(jù)、完成運算,并存回存儲器。兩者之間數(shù)據(jù)交換通路窄以及由此引發(fā)的高能耗兩大難題,在存儲與運算之間筑起了一道“存儲墻”。
以數(shù)據(jù)為主的AI計算之下,馮·諾伊曼架構(gòu)的“存儲墻”和“功耗墻”挑戰(zhàn)凸顯。半個多世紀(jì)后的今天,有沒有一種方式可以翻越“兩面墻”?
隨算力增加,處理器核心數(shù)增多,每核心可用帶寬越來越少,也就限制了整體速度。搬運數(shù)據(jù),成為相當(dāng)大的瓶頸。
當(dāng)下的計算處理器如CPU,GPU或AI專用芯片等,均采用馮諾依曼架構(gòu)設(shè)計,80%的功耗發(fā)生在數(shù)據(jù)傳輸上,99%的時間消耗在存儲器書寫過程中,而真正用于計算的能耗和時間其實占比很低。
人工智能迅猛發(fā)展的當(dāng)下,人工智能算法對邏輯單元與存儲單元之間信息交互能力的需求相對于傳統(tǒng)任務(wù)更嚴(yán)苛。AI計算以數(shù)據(jù)為主,大量數(shù)據(jù)搬運導(dǎo)致功耗居高不下。到2025年,全球數(shù)據(jù)中心將使用全球20%的電量。
AlphaGo下棋打敗人類,但人類只用了20瓦的大腦能耗,而AlphaGo是2萬瓦。如果更多腦力勞動被機器取代,芯片散發(fā)的熱量會讓地球變得滾燙。
只有低功耗基礎(chǔ)上的大算力才是可持續(xù)的。
解決存儲墻最根本的方案,就是把存儲和計算融合到一起,用存儲單元去做計算。
存算一體化是將計算機中的運算從中央處理器轉(zhuǎn)入內(nèi)存中進行,直接在存儲單元內(nèi)部進行運算,緩解數(shù)據(jù)搬運,可大幅降低數(shù)據(jù)交換時間以及計算過程中的數(shù)據(jù)存取能耗。
存算一體成為現(xiàn)階段實現(xiàn)高帶寬、低功耗、計算需求的一條有效途徑。
馮諾依曼架構(gòu)與存內(nèi)計算對比
存算一體化迎來爆發(fā)時刻
受限于芯片設(shè)計復(fù)雜度與制造成本問題,以及缺少殺手級大數(shù)據(jù)應(yīng)用進行驅(qū)動,存算一體一直不溫不火。
存算一體技術(shù)(PIM :Processing in-memory)被視為人工智能創(chuàng)新的核心。它將存儲和計算有機結(jié)合,直接利用存儲單元進行計算,極大地消除了數(shù)據(jù)搬移帶來的開銷,解決了傳統(tǒng)芯片在運行人工智能算法上的“存儲墻”與“功耗墻”問題,可以數(shù)十倍甚至百倍地提高人工智能運算效率,降低成本。
尤其是國內(nèi)一大批存算一體技術(shù)公司伴隨著融資信息浮出水面,國外的三星和Myhtic也是該領(lǐng)域的潛心研究者,他們近來也動作頻頻,一個新的存儲計算時代似乎將要來臨:
5月Myhtic C輪融資了7000萬美元,迄今為止已共計籌集了1.65億美元
6月10日,知存科技宣布完成億元A3輪融資,產(chǎn)品線擴充及新的產(chǎn)品量產(chǎn),加上此前的兩輪融資,截至目前,知存科技已完成累計近3億元的A輪系列融資
6月25日九天睿芯獲億元級A輪融資,用于新產(chǎn)品研發(fā)和人員擴充的工作
7月2日,杭州智芯科完成近億元的天使輪融資,用于繼續(xù)搭建團隊,啟動ACIM下一階段技術(shù)研發(fā)與市場拓展
8月24日,后摩智能宣布完成3億元人民幣Pre-A輪融資,將用于加速芯片產(chǎn)品技術(shù)研發(fā)、團隊拓展,早期市場布局及商業(yè)落地
8月24日,蘋芯科技完成近千萬美元Pre-A輪融資
動輒億元的資本涌入,前仆后繼的玩家踴躍跳入,充分證明了資本對存算一體這個賽道的青睞,為何存算一體芯片市場會如此被看好?
一是算力和運算數(shù)據(jù)量每年都在指數(shù)級增加,然而摩爾定律已經(jīng)接近于到極限,每代芯片只有10-20%的性能提升
二是馮諾依曼架構(gòu)的算力已經(jīng)被內(nèi)存墻所限制,只有解決內(nèi)存墻問題才能進一步提高算力
三是與深度學(xué)習(xí)網(wǎng)絡(luò)運算模型中的基本算子高度契合,使得基于存內(nèi)計算架構(gòu)的芯片相比于市場已有的AI加速芯片,在計算效率(TOPS/Watt)方面有數(shù)量級上的提升
四是通用性計算芯片在服務(wù)特定AI算法方面并不具備性價比優(yōu)勢,在各種解決方案中,存內(nèi)計算是最直接也是最高效的
寫在最后
在智能時代里,從可穿戴到自動駕駛,功耗約束下場景里的計算效率都是永恒的主題,存內(nèi)計算是解放算力、提升能效比最強有力的武器之一。存算一體化技術(shù)是顛覆傳統(tǒng)馮諾依曼架構(gòu)的存在,是未來趨勢,但從消費級到企業(yè)級市場的應(yīng)用普及,可能需要十年甚至更長的時間來扎實基礎(chǔ),升級完善。
存內(nèi)計算技術(shù)的發(fā)展是一條追求高能效計算的重要技術(shù)路線,如何有效控制存內(nèi)計算接口是一個重要挑戰(zhàn)。誰擁有兼顧計算密度與存儲密度的存內(nèi)計算硬件架構(gòu),誰就擁有了打開高能效計算的金鑰匙。
“存算一體”打破了運行70年的馮諾依曼架構(gòu),將成為AI時代主流的計算架構(gòu)。目前國內(nèi)外在存算一體方面都處于起步階段,存算一體正處于學(xué)術(shù)界向工業(yè)界遷移的關(guān)鍵時期,所以這可能是我們發(fā)展國產(chǎn)芯片的另一大重要方向。