HBM技術會給數(shù)據(jù)中心帶來怎樣的變化?
6月9日,SK海力士宣布公司已經量產了HBM3 DRAM芯片,并將供貨英偉達。因此英偉達的Tensor Core GPU將成為首先配備HBM3 DRAM的GPU。
HBM3 DRAM通過分布式接口與主機計算芯片緊密耦合。接口分為獨立通道,每個通道彼此完全獨立,通道不一定彼此同步。HBM3 DRAM使用寬接口架構來實現(xiàn)高速、低功耗運行。每個通道接口都維持一個64位數(shù)據(jù)總線,以雙倍數(shù)據(jù)速率運行。隨著英偉達即將使用HBM3 DRAM,數(shù)據(jù)中心即將迎來新一輪的性能革命。
想了解HBM3能帶來怎樣的改變,首先要了解HBM技術。
巨頭入局的HBM技術
HBM全稱為High Band width Memory,即高帶寬內存,是一種新興的標準DRAM解決方案。高帶寬內存方案最初是由三星、AMD和SK海力士提出來的。HBM技術可實現(xiàn)高于256GBps的突破性帶寬,同時降低功耗。它具有基于TSV和芯片堆疊技術的堆疊DRAM架構,核心DRAM芯片位于基礎邏輯芯片之上。
第一個HBM內存芯片由SK海力士于2013年生產,第一個使用HBM的產品是2015年的AMD Fiji GPU。
來源:AMD
HBM的思路十分直接:讓內存設備靠近CPU或GPU。HBM方法將內存芯片堆疊到一個矩陣里,接著將處理器與內存堆疊組合在一起,形成一個基本組件,然后將其安裝到服務器主板上。
HBM棧并不是物理上與CPU和GPU集成,而是通過稱為“中介層(Interposer)”的超快速互聯(lián)方式連接至CPU或GPU。將HBM的堆棧插入到中介層中,放置于CPU或GPU旁邊,然后將組裝后的模塊連接至電路板。通過中介層緊湊而快速地連接后,HBM具備的特性幾乎和芯片集成的RAM一樣。
HBM2于2016年被提出,2018年12月,JEDEC更新了HBM2標準。更新后的標準通常稱為HBM2和HBM2E(表示與原始HBM2標準的偏差)。HBM2標準允許每個引腳3.2GBps的帶寬,每個堆棧的最大容量為24GB(每個堆棧12個裸片,每個裸片2GB)和410GBps的最大帶寬,通過1,024位內存接口提供,由8個獨特的內存接口分隔每個堆棧上的通道。
最初,HBM2的最大傳輸速率為每個引腳2GBps,每個堆棧的最大容量為8GB(每個堆棧8個裸片的最大裸片容量為1GB)和256GBps的最大帶寬。然后,在達到我們今天看到的標準之前,它達到了每個引腳2.4Gbps和24GB的最大容量(每個芯片2GB,每個堆棧12個芯片)和307Gbps的最大帶寬。
目前,HBM已經被應用在高性能圖形加速器、網絡設備、高性能數(shù)據(jù)中心AI ASIC和FPGA以及一些超級計算機結合使用。除了AMD、英偉達、英特爾也宣布將在至強處理器SapphireRapids 增加HBM2e選項,Sapphire Rapids 也成為英特爾首款配備HBM的CPU。
HBM潛力何在?
深度學習和人工智能的興起,對數(shù)據(jù)運算的要求越來越高。最開始數(shù)據(jù)中心通過提高CPU、GPU的性能進而提高算力,在馮·諾伊曼架構中,計算單元要先從內存中讀取數(shù)據(jù),計算完成后,再存回內存,這樣才能輸出。由于半導體產業(yè)的發(fā)展和需求的差異,處理器和存儲器二者之間走向了不同的工藝路線。由于處理器與存儲器的工藝、封裝、需求的不同,從1980年開始至今二者之間的性能差距越來越大。數(shù)據(jù)顯示,從1980年到2000年,處理器和存儲器的速度失配以每年50%的速率增加。
存儲器數(shù)據(jù)訪問速度跟不上處理器的數(shù)據(jù)處理速度,數(shù)據(jù)傳輸就像處在一個巨大的漏斗之中,不管處理器灌進去多少,存儲器都只能“細水長流”。兩者之間數(shù)據(jù)交換通路窄以及由此引發(fā)的高能耗兩大難題,在存儲與運算之間筑起了一道“內存墻”。
隨著數(shù)據(jù)的爆炸增長,內存墻對于計算速度的影響正在顯現(xiàn)。為了減小內存墻的影響,提升內存帶寬一直是存儲芯片關注的技術問題。黃仁勛曾表示計算性能擴展最大的弱點就是內存帶寬。集成了大量的并行運算單元的處理器,如果內存帶寬跟不上,無疑會成為整個運算的瓶頸。例如谷歌第一代TPU,理論值為90TFOPS算力,最差真實值只有1/9,也就是10TFOPS算力,因為第一代內存帶寬僅34GB/s。
STREAM基準測試的作者John Mc Calpin在他的SC16受邀演講中指出HPC系統(tǒng)中的內存帶寬和系統(tǒng)平衡每個插槽的峰值flop/sec每年增加50%到60%,而內存帶寬每年僅增加約23%。
在過去的七年里,GDDR5在業(yè)界發(fā)揮了重要作用。迄今為止,這項顯存技術中的海量存儲功能幾乎應用在每個高性能顯卡上。DDR的出現(xiàn)實現(xiàn)了在一個時鐘周期內進行兩次數(shù)據(jù)傳輸,從而使之前的標準SDR(單次數(shù)據(jù)傳輸)的性能提高了一倍。
但是隨著顯卡芯片的快速發(fā)展,人們對快速傳輸信息的要求也在不斷提高。GDDR5已經漸漸不能滿足人們對帶寬的需要,技術發(fā)展也已進入了瓶頸期。每秒增加1GB的帶寬將會帶來更多的功耗,這不論對于設計人員還是消費者來說都不是一個明智、高效或合算的選擇。因此,GDDR5將會漸漸阻礙顯卡芯片性能的持續(xù)增長。
憑借TSV方式,相對于GDDR,HBM技術可以提供更高的帶寬,更高的性價比。GDDR技術需要將DRAM芯片直接放置在PCB上并散布在處理器周圍。HBM位于GPU本身上,并且堆棧相互疊在一起。這種方法無疑更快。為了增加GDDR上的芯片數(shù)量,這些將占用卡上更多的空間,這需要更多的數(shù)據(jù)和電源走線。這導致制造成本增加,因此對最終用戶來說更昂貴。
此外,TSV技術可以在增加帶寬的同時降低封裝尺寸,同時降低功耗。在傳統(tǒng)架構下,數(shù)據(jù)從內存單元傳輸?shù)接嬎銌卧枰墓氖怯嬎惚旧淼募s200倍,因此真正用于計算的能耗和時間占比很低,數(shù)據(jù)在存儲器與處理器之間的頻繁遷移帶來嚴重的傳輸功耗問題,稱為“功耗墻”。
有研究指出,單個HBM2e設備的功耗幾乎是GDDR6解決方案的一半。HBM2e能提供與GDDR6相同或更高的帶寬和類似的容量,但功耗幾乎GDDR6的一半。TOPS是在給定內存設備帶寬的情況下衡量最大可實現(xiàn)吞吐量的指標,用于評估神經網絡和數(shù)據(jù)密集型AI應用程序等應用程序的最佳吞吐量。HBM2e的設備的TOPS/W 比GDDR6技術的吞吐量增加了一倍。
除了應用在GPU、CPU中,HBM DRAM也已經被應用在FPGA上。2020年,浙江大學博士生導師王則可博士用團隊自己開發(fā)出的豎亥測算出使用HBM的FPGA。傳統(tǒng)的FPGA有兩個DRAM內存通道,每個提供19.2GB/s的內存帶寬。因此FPGA不能完成很多對帶寬能力要求高的應用。使用豎亥測試得出的結果顯示,HBM提供高達425GB/s的內存帶寬,比傳統(tǒng)使用兩個DDR4來說要高一個數(shù)量級。這對FPGA來說也是一個巨大的進步。
齊頭并進的存內計算
HBM的其中一個優(yōu)勢就是通過中介層縮短內存與處理器之間的距離,通過先進的3D封裝方式把內存和計算單元封裝在一起,提高了數(shù)據(jù)搬運速度。近存儲計算本質上來說還沒有做到真正的存算“一”體。那么是否有辦法進一步打破存儲墻呢?
存內計算是學術界為了解決這一問題提出的新一代技術。密歇根大學的研究人員與應用材料公司合作報告稱,具有多級單元電阻RAM(ReRAM)的內存模擬計算有望為機器學習和科學計算提供高密度和高效的計算。使用128 MNIST數(shù)據(jù)集測得的原始和歸一化峰值效率分別為20.7和662 TOPS/W,報告的計算密度為8.4TOPS/mm2,分類準確率為96.8%。
佐治亞理工學院提出了一種基于RRAM的無ADC內存計算(CIM)宏電路,該方案使用模擬信號處理和直接數(shù)字化,可將傳感電路的面積開銷減少0.5倍,并將吞吐量提高6.9倍。所提出的方案還實現(xiàn)了11.6倍的能效提升和4.3倍的計算效率提升。
SK海力士表示,由于存內計算在運算中減少了內存與CPU、GPU間的數(shù)據(jù)傳輸往來,大大降低了功耗,GDDR6-AiM可使功耗降低80%。SK海力士解決方案開發(fā)擔當副社長安炫表示:“基于具備獨立計算功能的存內計算技術,SK海力士將通過GDDR6-AiM構建全新的存儲器解決方案生態(tài)系統(tǒng)。”
臺積電在存內計算研發(fā)方面的投入也很大。在本屆ISSCC上,臺積電共合作發(fā)表了6篇關于存內計算存儲器IP的論文,其中一篇的作者全部來自臺積電,其余5篇則是臺積電和其他高校合作。臺積電獨立發(fā)表的SRAM論文基于5nm工藝,可以在不同計算精度下實現(xiàn)高計算密度和能效比。
三星、IBM、東芝、英特爾等半導體大廠都已經在存內計算方面布局。三星在2021年發(fā)布的HBM2-PIM,使用Aquabolt-XL技術圍繞HBM2 DRAM進行存內計算,可實現(xiàn)高達1.2TFLOPS的計算能力。
值得一提的是存內計算并非要取代HBM技術,更多的是幫助HBM DRAM突破算力瓶頸。在算力時代,CPU、GPU總是技術關注的焦點,但AWS團隊曾經表示,對于服務器來說,在內存上下功夫,會比增加核數(shù)的效果更快。
存儲在算力時代的重要性正在攀升,HBM技術登臺后,哪個技術會是儲存行業(yè)的突破口呢?