對算力芯片來說,最根本的追求就是計算效率,因此優(yōu)良的能效比一直是提升計算能力的關鍵。并行計算、分布式計算,以及采用算法和硬件高度集成的專用芯片,都是業(yè)界這些年的主要實踐。
雖然多核CPU/眾核GPU的并行加速技術可以提升算力,但隨著摩爾定律逼近極限,存儲帶寬已經在制約計算系統(tǒng)的有效帶寬,系統(tǒng)算力增長步履維艱。也就是在這一背景下,存算一體成為探尋極致計算效率道路上一個新方向,業(yè)界甚至稱它為“AI算力的下一極”,繼CPU、GPU之后的算力架構“第三極”。
存算一體的架構優(yōu)勢
在傳統(tǒng)的計算過程中,數據存在于計算單元與存儲單元之間,大量數據需要在CPU或GPU 中頻繁移動和高速傳遞。業(yè)界測算,整個過程中能耗大概在60%-90%之間。同時,由于外部DRAM的運行速度遠遠小于CPU或GPU的運算速度,馮·諾依曼架構會受到傳輸帶寬瓶頸的限制,也就是業(yè)界通常所說的存儲墻瓶頸,系統(tǒng)的計算效率大打折扣。
早期的AI芯片,嘗試通過堆積大量芯片資源以及高并行性來提高性能,典型的代表就是特斯拉的FSD。它采用集中式的存儲和計算架構,確實可以實現較好的性能提升,但是,在遇到算力要求更大、計算要求靈活性更高的場景,計算單元使用效率會急劇下降。這是因為,如果單純依靠堆積資源,到一定程度后,由于物理實現的限制,計算資源數據的并行性已經沒有辦法匹配計算資源本身的并行性了。
這樣的架構設計類似于古典的中式庭院,它向內合圍成一個小院子,集各種功能于一身,使得人與人、人和自然之間可以高效溝通,但因為院落的面積終究是有限的,所能容納的居住人數也就有限,而且設計和建造這樣的庭院難度和成本較大,可拓展性也比較差。
后摩智能聯(lián)合創(chuàng)始人兼研發(fā)副總裁陳亮指出,后摩智能所做的是更進一步,把存儲和計算完全融合在一起,而不只是一個近存計算。這一設計類似中西合璧的思路:先打造一個優(yōu)美的庭院,在保證計算資源利用效率的基礎上,再使用現代高層建筑的方式來靈活地擴展算力,這樣就可以達到效率、靈活性和可擴展性的平衡。
以后摩智能最新發(fā)布的鴻途H30芯片為例,它采用的天樞架構,就是通過多核、多硬件線程的方式擴展算力,實現了計算效率與算力靈活擴展的均衡,AI計算可以在核內完成端到端處理,保證通用性。在 Int8數據精度條件下,其AI核心IPU能效比15Tops/W,是傳統(tǒng)架構芯片的7倍以上。
概括存算一體的特點,就是在存儲單位內部完成部分或全部的計算。從架構層面,它可以實現兩個天然優(yōu)勢:由于計算和存儲兩個部分更近,減少了不必要的數據搬移,因此延時低、效率高。
大算力存算一體芯片的市場前景
存算一體正面向大算力、通用性、高計算精度等方面持續(xù)演進。面向智能駕駛、數據中心等大算力應用場景,它們在可靠性、算力方面有較高要求,業(yè)界認為,存算一體芯片有望另辟蹊徑搶占云計算市場。
中國電動汽車百人會副理事長兼秘書長張永偉則認為,智能駕駛市場規(guī)模龐大,仍處于加速滲透的階段,為新技術和新企業(yè)提供了創(chuàng)新發(fā)展的巨大機遇。存算一體作為一種創(chuàng)新技術,對工藝制程依賴度較低,是智能駕駛芯片具有前瞻性的一種選擇。
后摩智能認為存算一體的發(fā)展邏輯是受應用驅動的。正是因為AI、大數據分析這類數據密集型應用的出現后,對能效比的需要開始迅速上升,推動了存算一體的發(fā)展。并且在產業(yè)層面,存算一體技術在0到1的階段已初步形成IP授權、定制開發(fā)、自定義產品多種商業(yè)模式,能夠在特定應用場景中實現小規(guī)模量產。一旦產品出現可大規(guī)模量產的趨勢,或是能夠產生足夠的收益,整個產業(yè)鏈便會積極加入,推動整個產業(yè)的快速發(fā)展。
值得一提的是,以后摩智能鴻途H30打造的智能駕駛解決方案已經在合作伙伴的無人小車上完成部署,這也是業(yè)界第一次基于存算一體架構的芯片成功運行端到端的智能駕駛技術棧,開啟了存算一體大算力芯片的商用落地階段。
根據量子位智庫,到2030 年,基于存算一體技術的中小算力芯片市場規(guī)模約為1069億人 民幣,基于存算一體技術的大算力芯片市場規(guī)模約為67億人民幣,總市場規(guī)模約為1136 億人民幣。
從技術得到驗證到產品化過程的前期,存算一體配套工具(如EDA軟件)的研發(fā)尚處在探索階段。缺乏成熟的配套工具等原因,可能導致基于存算一體技術的產品在短期內(5年左右)以小規(guī)模量產為主。
國產存算一體芯片企業(yè)已超十家
國內企業(yè)對于存算一體芯片的投入逐漸進入高峰期。
<與非網>匯總分析,國產存算一體芯片主要呈現以下趨勢:進入2017年以來,國產存算一體芯片企業(yè)開始扎堆入場;第二,從技術路線來看,以近存計算和存內計算兩種路線為主,其中,又可以細分為模擬存內計算、全數字存內計算、類腦存內計算、類腦近存計算等;第三,存儲器類型相對多樣化,包括閃存、SRAM、RRAM、ReRAM等;第四,國產存算一體芯片正在向大算力的方向邁進,但數量較少,以2020年成立的億鑄科技和后摩智能為代表。
來源:<與非網>據公開信息匯總(2023/05/11)
寫在最后
大算力場景下,存算分離帶來的計算帶寬問題正在成為主要瓶頸。以智能駕駛等邊緣端高并發(fā)計算場景來看,它們除了對算力需求高之外,對芯片的功耗和散熱也有很高的要求。而常規(guī)架構的芯片設計中,內存系統(tǒng)的性能提升速度已經大幅落后于處理器的性能提升速度,有限的內存帶寬無法保證數據高速傳輸,無法滿足高級別的計算需求。在這一趨勢下,存算一體方案正獲得越來越多的關注,并逐步由研究走入商用場景中。
此外還有ChatGPT等生成式AI應用的助推,在巨大的芯片成本和功耗面前,也在尋求更具能效比的大算力芯片,而這也將是存算一體大算力芯片演進的一個主要方向。