人工智能時代,隨著AI應(yīng)用的普及,AI領(lǐng)域迫切需要性能更強(qiáng)、功耗更低、成本更低的芯片。
這其中,以深度學(xué)習(xí)為代表的AI算法更需要頻繁地進(jìn)行數(shù)據(jù)存取,低功耗和高性能之間的矛盾一直是端側(cè)AI芯片落地的難題。
存算一體芯片市場為何被看好
存算一體技術(shù)被視為人工智能創(chuàng)新的核心。存內(nèi)計算突破了傳統(tǒng)馮諾依曼瓶頸,實現(xiàn)了存儲單元與邏輯單元的融合,是實現(xiàn)智能計算的主要技術(shù)路線之一。
它將存儲和計算有機(jī)結(jié)合,直接利用存儲單元進(jìn)行計算,極大地消除了數(shù)據(jù)搬移帶來的開銷,解決了傳統(tǒng)芯片在運行人工智能算法上的“存儲墻”與“功耗墻”問題,可以數(shù)十倍甚至百倍地提高人工智能運算效率,降低成本。
當(dāng)前的存內(nèi)計算技術(shù)主要面臨著硬件資源復(fù)用、存內(nèi)計算單元設(shè)計和模擬運算實現(xiàn)等關(guān)鍵挑戰(zhàn)亟待解決。
國內(nèi)外存內(nèi)計算賽道火熱
目前,全球存內(nèi)計算有不少玩家。除了學(xué)術(shù)界,產(chǎn)業(yè)界也越來越多的玩家布局該技術(shù)。
IBM基于其獨特的相變存內(nèi)計算已經(jīng)有了數(shù)年的技術(shù)積累,臺積電正大力推進(jìn)基于ReRAM的存內(nèi)計算方案;英特爾、博世、美光、Lam Research、應(yīng)用材料、微軟、亞馬遜、軟銀則投資了基于NOR Flash的存內(nèi)計算芯片。
5月Myhtic C輪融資了7000萬美元,迄今為止已共計籌集了1.65億美元;6月10日,知存科技宣布完成億元A3輪融資,產(chǎn)品線擴(kuò)充及新的產(chǎn)品量產(chǎn),加上此前的兩輪融資,截至目前,知存科技已完成累計近3億元的A輪系列融資。
6月25日九天睿芯獲億元級A輪融資,用于新產(chǎn)品研發(fā)和人員擴(kuò)充的工作;7月2日,杭州智芯科完成近億元的天使輪融資,用于繼續(xù)搭建團(tuán)隊,啟動ACIM下一階段技術(shù)研發(fā)與市場拓展。
8月24日,后摩智能宣布完成3億元人民幣Pre-A輪融資,將用于加速芯片產(chǎn)品技術(shù)研發(fā)、團(tuán)隊拓展,早期市場布局及商業(yè)落地;8月24日,蘋芯科技完成近千萬美元Pre-A輪融資,據(jù)悉,本輪融資將主要用于芯片研發(fā)相關(guān)工作。
這些存算一體芯片公司有的處于團(tuán)隊搭建階段,有的是正在芯片研發(fā)階段,還有的已經(jīng)到了產(chǎn)品線擴(kuò)充和量產(chǎn)階段。
前幾年這個市場國內(nèi)也就僅有3-4家嶄露頭角的企業(yè),但現(xiàn)在存算一體這個賽道顯然已經(jīng)開始變得熱鬧起來了。
哪類存儲做存內(nèi)計算最好
目前能做存內(nèi)計算的存儲器并不多,除了FLASH,還有憶阻器、相變存儲器、鐵電存儲器、自旋存儲器、SRAM等,但各有各的優(yōu)缺點。
比如,IBM在相變存儲(PCRAM)里實現(xiàn)神經(jīng)網(wǎng)絡(luò)計算的功能,利用新型存儲器件的模擬計算功能來實現(xiàn)神經(jīng)網(wǎng)絡(luò)的計算。
加州大學(xué)圣芭芭拉分校謝源教授在新型存儲器件ReRAM(阻變存儲)里面做計算的功能,讓存儲器件做神經(jīng)網(wǎng)絡(luò)的計算,稱之為PRIME架構(gòu)。
有些工廠把目光投向了NOR Flash,綜合來看,NOR FLASH是目前最適合產(chǎn)業(yè)化的方向,眾多巨頭投資的美國初創(chuàng)公司Mythic采用的也正是NOR FLASH。NOR FLASH的優(yōu)勢不僅體現(xiàn)在功耗和成熟度等方面,高精度也是很大的優(yōu)勢。
由于在很多AI推理運算中,90%以上的運算資源都消耗在數(shù)據(jù)搬運的過程。芯片內(nèi)部到外部的帶寬以及片上緩存空間限制了運算的效率。
所以有人說,存算一體化是下一代AI芯片的關(guān)鍵。
存內(nèi)計算技術(shù)的關(guān)鍵挑戰(zhàn)
存內(nèi)計算雖然可以突破傳統(tǒng)馮諾依曼架構(gòu)的瓶頸,但是仍受到幾個關(guān)鍵問題的制約。
①硬件資源的復(fù)用問題。傳統(tǒng)馮諾依曼架構(gòu)分立了存儲單元和邏輯單元,并根據(jù)距離邏輯單元的遠(yuǎn)近,將存儲單元劃分為硬盤、內(nèi)存、緩存等多級存儲模式。這使得有限的邏輯單元可以調(diào)用大量的存儲信息,實現(xiàn)了邏輯單元的復(fù)用,從而降低了片上資源的開銷。
②存算一體化單元的設(shè)計問題。存內(nèi)運算對存算一體化單元的性能要求十分苛刻。在開銷上,存算一體化單元的硬件開銷應(yīng)該控制在一定范圍內(nèi),至少要明顯低于分立的存儲單元和邏輯單元的開銷總和。
③模擬量運算的實現(xiàn)問題。人工智能算法的運算涉及批量的準(zhǔn)模擬量運算。例如,算法對權(quán)重的變化范圍和精度要求較為苛刻,尤其是涉及網(wǎng)絡(luò)的訓(xùn)練過程,權(quán)重精度的要求將超過6bits。然而,在硬件實現(xiàn)過程中,數(shù)字量的精準(zhǔn)運算開銷較大。
結(jié)尾:
人工智能的硬件化加速方法朝著多元化的方向發(fā)展,各種類型的加速方法的研究同步推進(jìn),各具特色且難以相互替代。
目前國內(nèi)外在存算一體方面都處于起步階段,存算一體正處于學(xué)術(shù)界向工業(yè)界遷移的關(guān)鍵時期,所以這可能是我們發(fā)展國產(chǎn)芯片的另一大重要方向。
作者 | 方文
部分內(nèi)容來源于:
中國信息通信研究院CAICT:存內(nèi)計算技術(shù)發(fā)展趨勢分析 ;
沉寂近30年后火了!存內(nèi)計算如何打破AI算力瓶頸?;
半導(dǎo)體行業(yè)觀察:存內(nèi)計算能否成為下一代AI芯片的關(guān)鍵;
EEWORLD:存內(nèi)計算:讓AI進(jìn)入高速路;
半導(dǎo)體觀察:存內(nèi)計算,要爆發(fā)了?;
有思想的talk君:王紹迪:存算一體為什么是AI時代主流計算架構(gòu)?