對(duì)算力芯片來說,最根本的追求就是計(jì)算效率,因此優(yōu)良的能效比一直是提升計(jì)算能力的關(guān)鍵。并行計(jì)算、分布式計(jì)算,以及采用算法和硬件高度集成的專用芯片,都是業(yè)界這些年的主要實(shí)踐。
雖然多核CPU/眾核GPU的并行加速技術(shù)可以提升算力,但隨著摩爾定律逼近極限,存儲(chǔ)帶寬已經(jīng)在制約計(jì)算系統(tǒng)的有效帶寬,系統(tǒng)算力增長(zhǎng)步履維艱。也就是在這一背景下,存算一體成為探尋極致計(jì)算效率道路上一個(gè)新方向,業(yè)界甚至稱它為“AI算力的下一極”,繼CPU、GPU之后的算力架構(gòu)“第三極”。
存算一體的架構(gòu)優(yōu)勢(shì)
在傳統(tǒng)的計(jì)算過程中,數(shù)據(jù)存在于計(jì)算單元與存儲(chǔ)單元之間,大量數(shù)據(jù)需要在CPU或GPU 中頻繁移動(dòng)和高速傳遞。業(yè)界測(cè)算,整個(gè)過程中能耗大概在60%-90%之間。同時(shí),由于外部DRAM的運(yùn)行速度遠(yuǎn)遠(yuǎn)小于CPU或GPU的運(yùn)算速度,馮·諾依曼架構(gòu)會(huì)受到傳輸帶寬瓶頸的限制,也就是業(yè)界通常所說的存儲(chǔ)墻瓶頸,系統(tǒng)的計(jì)算效率大打折扣。
早期的AI芯片,嘗試通過堆積大量芯片資源以及高并行性來提高性能,典型的代表就是特斯拉的FSD。它采用集中式的存儲(chǔ)和計(jì)算架構(gòu),確實(shí)可以實(shí)現(xiàn)較好的性能提升,但是,在遇到算力要求更大、計(jì)算要求靈活性更高的場(chǎng)景,計(jì)算單元使用效率會(huì)急劇下降。這是因?yàn)?,如果單純依靠堆積資源,到一定程度后,由于物理實(shí)現(xiàn)的限制,計(jì)算資源數(shù)據(jù)的并行性已經(jīng)沒有辦法匹配計(jì)算資源本身的并行性了。
這樣的架構(gòu)設(shè)計(jì)類似于古典的中式庭院,它向內(nèi)合圍成一個(gè)小院子,集各種功能于一身,使得人與人、人和自然之間可以高效溝通,但因?yàn)樵郝涞拿娣e終究是有限的,所能容納的居住人數(shù)也就有限,而且設(shè)計(jì)和建造這樣的庭院難度和成本較大,可拓展性也比較差。
后摩智能聯(lián)合創(chuàng)始人兼研發(fā)副總裁陳亮指出,后摩智能所做的是更進(jìn)一步,把存儲(chǔ)和計(jì)算完全融合在一起,而不只是一個(gè)近存計(jì)算。這一設(shè)計(jì)類似中西合璧的思路:先打造一個(gè)優(yōu)美的庭院,在保證計(jì)算資源利用效率的基礎(chǔ)上,再使用現(xiàn)代高層建筑的方式來靈活地?cái)U(kuò)展算力,這樣就可以達(dá)到效率、靈活性和可擴(kuò)展性的平衡。
以后摩智能最新發(fā)布的鴻途H30芯片為例,它采用的天樞架構(gòu),就是通過多核、多硬件線程的方式擴(kuò)展算力,實(shí)現(xiàn)了計(jì)算效率與算力靈活擴(kuò)展的均衡,AI計(jì)算可以在核內(nèi)完成端到端處理,保證通用性。在 Int8數(shù)據(jù)精度條件下,其AI核心IPU能效比15Tops/W,是傳統(tǒng)架構(gòu)芯片的7倍以上。
概括存算一體的特點(diǎn),就是在存儲(chǔ)單位內(nèi)部完成部分或全部的計(jì)算。從架構(gòu)層面,它可以實(shí)現(xiàn)兩個(gè)天然優(yōu)勢(shì):由于計(jì)算和存儲(chǔ)兩個(gè)部分更近,減少了不必要的數(shù)據(jù)搬移,因此延時(shí)低、效率高。
大算力存算一體芯片的市場(chǎng)前景
存算一體正面向大算力、通用性、高計(jì)算精度等方面持續(xù)演進(jìn)。面向智能駕駛、數(shù)據(jù)中心等大算力應(yīng)用場(chǎng)景,它們?cè)诳煽啃?、算力方面有較高要求,業(yè)界認(rèn)為,存算一體芯片有望另辟蹊徑搶占云計(jì)算市場(chǎng)。
中國(guó)電動(dòng)汽車百人會(huì)副理事長(zhǎng)兼秘書長(zhǎng)張永偉則認(rèn)為,智能駕駛市場(chǎng)規(guī)模龐大,仍處于加速滲透的階段,為新技術(shù)和新企業(yè)提供了創(chuàng)新發(fā)展的巨大機(jī)遇。存算一體作為一種創(chuàng)新技術(shù),對(duì)工藝制程依賴度較低,是智能駕駛芯片具有前瞻性的一種選擇。
后摩智能認(rèn)為存算一體的發(fā)展邏輯是受應(yīng)用驅(qū)動(dòng)的。正是因?yàn)锳I、大數(shù)據(jù)分析這類數(shù)據(jù)密集型應(yīng)用的出現(xiàn)后,對(duì)能效比的需要開始迅速上升,推動(dòng)了存算一體的發(fā)展。并且在產(chǎn)業(yè)層面,存算一體技術(shù)在0到1的階段已初步形成IP授權(quán)、定制開發(fā)、自定義產(chǎn)品多種商業(yè)模式,能夠在特定應(yīng)用場(chǎng)景中實(shí)現(xiàn)小規(guī)模量產(chǎn)。一旦產(chǎn)品出現(xiàn)可大規(guī)模量產(chǎn)的趨勢(shì),或是能夠產(chǎn)生足夠的收益,整個(gè)產(chǎn)業(yè)鏈便會(huì)積極加入,推動(dòng)整個(gè)產(chǎn)業(yè)的快速發(fā)展。
值得一提的是,以后摩智能鴻途H30打造的智能駕駛解決方案已經(jīng)在合作伙伴的無人小車上完成部署,這也是業(yè)界第一次基于存算一體架構(gòu)的芯片成功運(yùn)行端到端的智能駕駛技術(shù)棧,開啟了存算一體大算力芯片的商用落地階段。
根據(jù)量子位智庫(kù),到2030 年,基于存算一體技術(shù)的中小算力芯片市場(chǎng)規(guī)模約為1069億人 民幣,基于存算一體技術(shù)的大算力芯片市場(chǎng)規(guī)模約為67億人民幣,總市場(chǎng)規(guī)模約為1136 億人民幣。
從技術(shù)得到驗(yàn)證到產(chǎn)品化過程的前期,存算一體配套工具(如EDA軟件)的研發(fā)尚處在探索階段。缺乏成熟的配套工具等原因,可能導(dǎo)致基于存算一體技術(shù)的產(chǎn)品在短期內(nèi)(5年左右)以小規(guī)模量產(chǎn)為主。
國(guó)產(chǎn)存算一體芯片企業(yè)已超十家
國(guó)內(nèi)企業(yè)對(duì)于存算一體芯片的投入逐漸進(jìn)入高峰期。
<與非網(wǎng)>匯總分析,國(guó)產(chǎn)存算一體芯片主要呈現(xiàn)以下趨勢(shì):進(jìn)入2017年以來,國(guó)產(chǎn)存算一體芯片企業(yè)開始扎堆入場(chǎng);第二,從技術(shù)路線來看,以近存計(jì)算和存內(nèi)計(jì)算兩種路線為主,其中,又可以細(xì)分為模擬存內(nèi)計(jì)算、全數(shù)字存內(nèi)計(jì)算、類腦存內(nèi)計(jì)算、類腦近存計(jì)算等;第三,存儲(chǔ)器類型相對(duì)多樣化,包括閃存、SRAM、RRAM、ReRAM等;第四,國(guó)產(chǎn)存算一體芯片正在向大算力的方向邁進(jìn),但數(shù)量較少,以2020年成立的億鑄科技和后摩智能為代表。
來源:<與非網(wǎng)>據(jù)公開信息匯總(2023/05/11)
寫在最后
大算力場(chǎng)景下,存算分離帶來的計(jì)算帶寬問題正在成為主要瓶頸。以智能駕駛等邊緣端高并發(fā)計(jì)算場(chǎng)景來看,它們除了對(duì)算力需求高之外,對(duì)芯片的功耗和散熱也有很高的要求。而常規(guī)架構(gòu)的芯片設(shè)計(jì)中,內(nèi)存系統(tǒng)的性能提升速度已經(jīng)大幅落后于處理器的性能提升速度,有限的內(nèi)存帶寬無法保證數(shù)據(jù)高速傳輸,無法滿足高級(jí)別的計(jì)算需求。在這一趨勢(shì)下,存算一體方案正獲得越來越多的關(guān)注,并逐步由研究走入商用場(chǎng)景中。
此外還有ChatGPT等生成式AI應(yīng)用的助推,在巨大的芯片成本和功耗面前,也在尋求更具能效比的大算力芯片,而這也將是存算一體大算力芯片演進(jìn)的一個(gè)主要方向。