作者 |??ZeR0,編輯?|??漠影
Blackwell架構(gòu)大揭秘!對(duì)話英偉達(dá)技術(shù)高管+22頁(yè)技術(shù)報(bào)告解讀。
芯東西3月24日?qǐng)?bào)道,當(dāng)今全世界身價(jià)最高的兩位華人,一位賣(mài)鏟,一位賣(mài)水。第一名是英偉達(dá)創(chuàng)始人兼CEO黃仁勛,靠給AI淘金者們賣(mài)GPU,把英偉達(dá)推上全球市值第三的寶座;另一位是農(nóng)夫山泉?jiǎng)?chuàng)始人、董事長(zhǎng)兼總經(jīng)理鐘睒睒,憑“大自然的搬運(yùn)工”笑傲飲用水江湖。
當(dāng)前,英偉達(dá)市值已經(jīng)穩(wěn)坐2萬(wàn)億美元大關(guān),與蘋(píng)果的市值差距縮小到0.3萬(wàn)億美元。
在本周英偉達(dá)GTC大會(huì)上,黃仁勛一本正經(jīng)地說(shuō):“我們可以附帶著賣(mài)熱水?!边@可不是句玩笑話,黃仁勛是有數(shù)據(jù)依據(jù)的:英偉達(dá)DGX新機(jī)的液冷散熱,液體入口溫度是25℃,接近室溫;出口溫度升高到45℃,接近按摩浴缸的水溫,流速是2L/s。當(dāng)然了,比起賣(mài)水,GPU算力才是英偉達(dá)手里的印鈔機(jī)。
人稱“皮衣刀客”的黃仁勛,一貫具有極強(qiáng)的危機(jī)感和風(fēng)險(xiǎn)意識(shí),永遠(yuǎn)在提前為未來(lái)鋪路。再加上芯片行業(yè)是一個(gè)高風(fēng)險(xiǎn)高成本低容錯(cuò)的行業(yè),一步走錯(cuò),可能就會(huì)跌落神壇,滿盤(pán)皆輸。所以在AI算力需求空前爆發(fā)、一眾強(qiáng)敵虎視眈眈的關(guān)鍵時(shí)刻,英偉達(dá)不敢在新品上有絲毫懈怠,必然會(huì)在短期內(nèi)打出最大爆發(fā),讓對(duì)手們望塵莫及。當(dāng)競(jìng)爭(zhēng)對(duì)手們還在以追趕英偉達(dá)旗艦GPU為目標(biāo)時(shí),黃仁勛已經(jīng)站在next Level,捕捉到數(shù)據(jù)中心客戶需求的痛點(diǎn)——單芯不頂事,真正頂事的是解決系統(tǒng)級(jí)性能和能效提升的挑戰(zhàn)。
拿單個(gè)旗艦GPU比,英偉達(dá)的芯片確實(shí)配得上“核彈”稱號(hào),性能猛,功耗也高。但黃仁勛厲害在早就跳出芯片本身,不斷向數(shù)據(jù)中心客戶灌輸“買(mǎi)得越多 省得越多”的理念,簡(jiǎn)而言之買(mǎi)英偉達(dá)的AI系統(tǒng)方案比其他方案更快更省錢(qián)。從Blackwell架構(gòu)設(shè)計(jì)到AI基礎(chǔ)設(shè)施的技術(shù)布局,都能反映黃仁勛對(duì)未來(lái)市場(chǎng)需求和行業(yè)趨勢(shì)的前瞻性判斷:
1、摩爾定律帶動(dòng)性能提升越來(lái)越捉襟見(jiàn)肘,單die面積和晶體管快到極限,后續(xù)芯片迭代必須包括高帶寬內(nèi)存、Chiplet先進(jìn)封裝、片內(nèi)互聯(lián)等技術(shù)的創(chuàng)新組合。再加上片外互連等高性能通信的優(yōu)化,共同構(gòu)成了英偉達(dá)打造出專為萬(wàn)億參數(shù)級(jí)生成式AI設(shè)計(jì)的系統(tǒng)的基礎(chǔ)。
2、未來(lái),數(shù)據(jù)中心將被視為AI工廠,在整個(gè)生命周期里,AI工廠的目標(biāo)是產(chǎn)生收益。不同于消費(fèi)級(jí)市場(chǎng)單賣(mài)顯卡,數(shù)據(jù)中心市場(chǎng)是個(gè)系統(tǒng)級(jí)生意,單芯片峰值性能參考價(jià)值不大,把很多GPU組合成一個(gè)“巨型GPU”,使其在完成同等計(jì)算任務(wù)時(shí)耗費(fèi)更少的卡、時(shí)間和電力,對(duì)客戶才能帶來(lái)更大的吸引力。
3、AI模型的規(guī)模和數(shù)據(jù)量將持續(xù)增長(zhǎng):未來(lái)會(huì)用多模態(tài)數(shù)據(jù)來(lái)訓(xùn)練更大的模型;世界模型將大行其道,學(xué)習(xí)掌握現(xiàn)實(shí)世界的物理規(guī)律和常識(shí);借助合成數(shù)據(jù)生成技術(shù),AI甚至能模仿人類的學(xué)習(xí)方式,聯(lián)想、思考、彼此相互訓(xùn)練。英偉達(dá)的目標(biāo)是不斷降低與計(jì)算相關(guān)的成本和能耗。
4、高性能推理或生成將至關(guān)重要。云端運(yùn)行的英偉達(dá)GPU可能有一半時(shí)間都被用于token生成,運(yùn)行大量的生成式AI任務(wù)。這既需要提高吞吐量,以降低服務(wù)成本,又要提高交互速度以提高用戶體驗(yàn),一個(gè)GPU難以勝任,因此必須找到一種能在許多GPU上并行處理模型工作的方法。
01.最強(qiáng)AI芯片規(guī)格詳解:最大功耗2700W,CUDA配置成謎
本周二,英偉達(dá)發(fā)布新一代Blackwell GPU架構(gòu),不僅刻意弱化了單芯片的存在感,而且沒(méi)有明確GPU的代號(hào),而是隱晦地稱作“Blackwell GPU”。這使得被公認(rèn)遙遙領(lǐng)先的Blackwell架構(gòu)多少籠上了一抹神秘色彩。在GTC大會(huì)現(xiàn)場(chǎng),英偉達(dá)副總裁Ian Buck和高級(jí)副總裁Jonah Alben向智東西&芯東西等全球媒體進(jìn)一步分享了關(guān)于Blackwell架構(gòu)設(shè)計(jì)的背后思考。
結(jié)合22頁(yè)英偉達(dá)Blackwell架構(gòu)技術(shù)簡(jiǎn)報(bào),關(guān)于GB200超級(jí)芯片、HGX B200/B100、DGX超級(jí)計(jì)算機(jī)等的配置細(xì)節(jié)被進(jìn)一步披露。根據(jù)現(xiàn)有信息,全新Blackwell GPU沒(méi)有采用最先進(jìn)的3nm制程工藝,而是繼續(xù)沿用4nm的定制增強(qiáng)版工藝臺(tái)積電4NP,已知的芯片款式有3類——B100、B200、GB200超級(jí)芯片。
B100不是新發(fā)布的主角,僅在HGX B100板卡中被提及。B200是重頭戲,GB200又進(jìn)一步把B200和1顆72核Grace CPU拼在一起。B200有2080億顆晶體管,超過(guò)H100(800億顆晶體管)數(shù)量的兩倍。英偉達(dá)沒(méi)透露單個(gè)Blackwell GPU die的具體大小,只說(shuō)是在reticle大小尺寸限制內(nèi)。上一代單die面積為814mm2。由于不知道具體數(shù)字,不好計(jì)算B200在單位面積性能上的改進(jìn)幅度。
英偉達(dá)通過(guò)NV-HBI高帶寬接口,以10TB/s雙向帶寬將兩個(gè)GPU die互聯(lián)封裝,讓B200能像單芯片一樣運(yùn)行,不會(huì)因?yàn)橥ㄐ艙p耗而損失性能,沒(méi)有內(nèi)存局部性問(wèn)題,也沒(méi)有緩存問(wèn)題,能支持更高的L2緩存帶寬。但英偉達(dá)并沒(méi)有透露它具體采用了怎樣的芯片封裝策略。前代GH200超級(jí)芯片是把1個(gè)H100和1個(gè)Grace CPU組合。而GB200超級(jí)芯片將2個(gè)Blackwell GPU和CPU組合,每個(gè)GPU的滿配TDP達(dá)到1200W,使得整個(gè)超級(jí)芯片的TDP達(dá)到2700W(1200W x 2+300W)。
▲B(niǎo)lackwell GB200規(guī)格(圖源:芯東西根據(jù)技術(shù)簡(jiǎn)報(bào)表格譯成中文)
值得關(guān)注的是,Blackwell架構(gòu)技術(shù)簡(jiǎn)報(bào)僅披露了Tensor核心數(shù)據(jù),對(duì)CUDA核心數(shù)、Tensor核心數(shù)、向量算力等信息只字未提。除了FP64是稠密,其他數(shù)據(jù)格式都顯示了稀疏算力。
相比之下,標(biāo)準(zhǔn)FP64 Tensor核心計(jì)算性能提升幅度不大,H100和H200是67TFLOPS,GB200超級(jí)芯片是90TFLOPS,比上一代提高34%。一種可能的推測(cè)是Blackwell架構(gòu)的設(shè)計(jì)全面偏向AI計(jì)算,對(duì)高性能計(jì)算的提升不明顯。如果晶體管都用于堆Tensor核心,它的通用能力會(huì)變?nèi)酰駛€(gè)偏科的AI NPU。由于采用相同的基礎(chǔ)設(shè)施設(shè)計(jì),從Hopper換用Blackwell主板就像推拉抽屜一樣方便。技術(shù)簡(jiǎn)報(bào)披露了Blackwell x86平臺(tái)HGX B100、HGX B200的系統(tǒng)配置。HGX B200搭載8個(gè)B200,每個(gè)GPU的TDP為1000W;HGX B100搭載8個(gè)B100,每個(gè)GPU的TDP為700W。
在數(shù)據(jù)中心Blackwell GPU發(fā)布后,業(yè)界關(guān)注焦點(diǎn)移向同樣基于Blackwell架構(gòu)的游戲顯卡RTX 50系列。目前距離RTX 50系列GPU的發(fā)布日期還很遙遠(yuǎn),最快也得到今年年底,慢點(diǎn)可能要到明年甚至是后年。不過(guò)現(xiàn)在已經(jīng)有很多關(guān)于配置的傳言,比如采用臺(tái)積電3nm和28Gbps GDDR 7顯存、最大總線寬度有384bit和512bit兩種說(shuō)法,芯片包括從入門(mén)級(jí)GB207到高端級(jí)GB202,會(huì)繼續(xù)優(yōu)化路徑追蹤、光線追蹤。
02.8年AI訓(xùn)練算力提升1000倍,英偉達(dá)是怎么做到的?
從2016年P(guān)ascal GPU的19TFLOPS,到今年Blackwell GPU的20PFLOPS,黃仁勛宣布英偉達(dá)用8年將單卡AI訓(xùn)練性能提升了1000倍。
這個(gè)聽(tīng)起來(lái)令人心潮澎湃的倍數(shù),除了得益于制程工藝迭代、更大的HBM容量和帶寬、雙die設(shè)計(jì)外,數(shù)據(jù)精度的降低起到關(guān)鍵作用。
多數(shù)訓(xùn)練是在FP16精度下進(jìn)行,但實(shí)際上不需要用這么高的精度去處理所有參數(shù)。英偉達(dá)一直在探索怎么通過(guò)混合精度操作來(lái)在降低內(nèi)存占用的同時(shí)確保吞吐量不受影響。Blackwell GPU內(nèi)置的第二代Transformer引擎,利用先進(jìn)的動(dòng)態(tài)范圍管理算法和細(xì)粒度縮放技術(shù)(微型tensor縮放)來(lái)優(yōu)化性能和精度,并首度支持FP4新格式,使得FP4 Tensor核性能、HBM模型規(guī)模和帶寬都實(shí)現(xiàn)翻倍。
同時(shí)TensorRT-LLM的創(chuàng)新包括量化到4bit精度、具有專家并行映射的定制化內(nèi)核,能讓MoE模型實(shí)時(shí)推理使用耗費(fèi)硬件、能量、成本。NeMo框架、Megatron-Core新型專家并行技術(shù)等都也為模型訓(xùn)練性能的提升提供了支持。降精度的難點(diǎn)是兼顧用戶對(duì)準(zhǔn)確率的需求。FP4并不在什么時(shí)候都有效,英偉達(dá)專門(mén)強(qiáng)調(diào)的是對(duì)混合專家模型和大語(yǔ)言模型帶來(lái)的好處。把精度降到FP4可能會(huì)有困惑度增加的問(wèn)題,英偉達(dá)還貼心地加了個(gè)過(guò)渡的FP6,這個(gè)新格式雖然沒(méi)什么性能優(yōu)勢(shì),但處理數(shù)據(jù)量比FP8減少25%,能緩解內(nèi)存壓力。
03.90天2000塊GPU訓(xùn)練1.8萬(wàn)億參數(shù)模型,打破通信瓶頸是關(guān)鍵
和消費(fèi)級(jí)顯卡策略不同,面向數(shù)據(jù)中心,黃仁勛并不打算通過(guò)賣(mài)一顆兩顆顯卡來(lái)賺取蠅頭小利,而是走“堆料”路線來(lái)幫客戶省錢(qián)。無(wú)論是大幅提高性能,還是節(jié)省機(jī)架空間、降低電力成本,都對(duì)在AI大模型競(jìng)賽中爭(zhēng)分奪秒的企業(yè)們相當(dāng)有吸引力。黃仁勛舉的例子是訓(xùn)練1.8萬(wàn)億參數(shù)的GPT-MoE混合專家模型:用25000個(gè)Ampere GPU,需要3~5個(gè)月左右;要是用Hopper,需要約8000個(gè)GPU、90天來(lái)訓(xùn)練,耗電15MW;而用Blackwell,同樣花90天,只需2000個(gè)GPU,耗電僅4MW。省錢(qián)與省電成正比,提高能效的關(guān)鍵是減少通信損耗。據(jù)Ian Buck和Jonah Alben分享,在GPU集群上運(yùn)行龐大的GPT-MoE模型,有60%的時(shí)間都花在通信上。
Ian Buck解釋說(shuō),這不光是計(jì)算問(wèn)題,還是I/O問(wèn)題,混合專家模型帶來(lái)更多并行層和通信層。它將模型分解成一群擅長(zhǎng)不同任務(wù)的專家,誰(shuí)擅長(zhǎng)什么,就將相應(yīng)訓(xùn)練和推理任務(wù)分配給誰(shuí)。
所以實(shí)現(xiàn)更快的NVLink Switch互連技術(shù)非常重要。所有GPU必須共享計(jì)算過(guò)程中的結(jié)果,在DGX GB200 NVL72機(jī)架中,多節(jié)點(diǎn)All-to-All通信、all-Reduce的通信速度都較過(guò)去暴漲。
全新NVLink Switch芯片總帶寬達(dá)到7.2TB/s,支持GPU縱向擴(kuò)展,能驅(qū)動(dòng)4個(gè)1.8TB/s的NVLink端口。而PCIe 9.0 x16插槽預(yù)計(jì)要到2032年才能提供2TB/s的帶寬。從單卡來(lái)看,相比H100,Blackwell GPU的訓(xùn)練性能僅提高到2.5倍,即便按新添的FP4精度算,推理性能也只提高到5倍。但如果從系統(tǒng)性能來(lái)看,相比上一代Hopper集群,Blackwell可將1.8萬(wàn)億參數(shù)的GPT-MoE推理性能提高到30倍。
藍(lán)色曲線代表H200,紫紅色曲線代表B200,從藍(lán)到紫只涉及從Hopper單芯設(shè)計(jì)到Blackwell雙芯設(shè)計(jì)的芯片升級(jí)。加上全新FP4、Tensor核心、Transformer引擎、NVLink Switch等技術(shù),性能漲到如綠色曲線代表的GB200所示。下圖中Y軸是每GPU每秒token數(shù),代表數(shù)據(jù)中心吞吐量;X軸是每用戶每秒token數(shù),代表用戶的交互體驗(yàn),越靠近右上方的數(shù)據(jù)代表兩種能力都很強(qiáng)。綠色曲線是峰值性能線。
為了找出GPT-MoE訓(xùn)練的正確并行配置,英偉達(dá)做了大量實(shí)驗(yàn)(得到圖中的藍(lán)點(diǎn)),以探索創(chuàng)建硬件和切割模型的正確方法,使其盡可能實(shí)現(xiàn)高效運(yùn)行。其探索包括一些軟件重分塊、優(yōu)化策略判斷,并將大模型分布在不同的GPU中來(lái)滿足性能需求。左側(cè)TP2代表2個(gè)GPU的Tensor并行,EP8代表跨8個(gè)GPU的專家并行,DP4代表跨4個(gè)GPU的數(shù)據(jù)并行。右側(cè)有TP4,跨4個(gè)GPU的Tensor并行、跨16個(gè)GPU的專家并行。軟件層面不同的配置和分布式策略會(huì)導(dǎo)致運(yùn)行時(shí)產(chǎn)生不同結(jié)果。黃仁勛還從通信耗材的角度來(lái)說(shuō)明Blackwell DGX系統(tǒng)能夠更省電省錢(qián)。
他解釋說(shuō)在DGX背面NVLink主干數(shù)據(jù)以130TB/s雙向帶寬通過(guò)機(jī)箱背面,比互聯(lián)網(wǎng)總帶寬還高,基本上1秒鐘內(nèi)能將所有內(nèi)容發(fā)送給每個(gè)人,里面有5000根NVLink銅纜、總長(zhǎng)度2英里。如果用光傳輸,就必須使用光模塊和retimer,這倆器件要耗電20kW,僅是光模塊就要耗電2kW。只是為了驅(qū)動(dòng)NVLink主干,英偉達(dá)通過(guò)NVLink Switch不耗電就能做到,還能節(jié)省20kW用于計(jì)算(整個(gè)機(jī)架功耗為120kW)。
04.集結(jié)高速通信能力,在單機(jī)架上打造E級(jí)算力AI超級(jí)計(jì)算機(jī)
更快的網(wǎng)絡(luò),帶來(lái)了更強(qiáng)大的計(jì)算效率。DGX GB200 NVL72采用液冷機(jī)架式設(shè)計(jì),顧名思義,通過(guò)第五代NVLink以1.8TB/s通信速度將72個(gè)GPU互連。一個(gè)機(jī)架最多有高達(dá)130TB/s的GPU帶寬、30TB內(nèi)存,訓(xùn)練算力接近E級(jí)、推理算力超過(guò)E級(jí)。
相較相同數(shù)量H100 GPU的系統(tǒng),GB200 NVL72為GPT-MoE-1.8T等大語(yǔ)言模型提供4倍的訓(xùn)練性能。在GB200 NVL72中用32個(gè)Blackwell GPU運(yùn)行GPT-MoE-1.8T,速度是64個(gè)Hopper GPU的30倍。
黃仁勛說(shuō),這是世界上第一臺(tái)單機(jī)架EFLOPS級(jí)機(jī)器,整個(gè)地球也不過(guò)兩三臺(tái)E級(jí)機(jī)器。對(duì)比之下,8年前,他交給OpenAI的第一臺(tái)DGX-1,訓(xùn)練算力只有0.17PFLOPS。H100搭配的第四代NVLink總帶寬是900GB/s,第五代則翻倍提升到1.8TB/s,是PCle 5帶寬的14倍以上。每個(gè)GPU的NVLink數(shù)量沒(méi)變,都是18個(gè)鏈路。CPU與B200間的通信速度是300GB/s,比PCIe 6.0 x16插槽的256GB/s更快。
GB200 NVL72需要強(qiáng)大的網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)最佳性能,用到了英偉達(dá)Quantum-X800 InfiniBand、Spectrum-X800以太網(wǎng)、BlueField-3 DPU和Magnum IO軟件。
兩年前,黃仁勛看到的GPU是HGX,重70磅,有35000個(gè)零件;現(xiàn)在GPU有60萬(wàn)個(gè)零件,重3000磅,“應(yīng)該沒(méi)有一頭大象沉”,“重量跟一輛碳纖維法拉利差不多”。第五代NVLink把GPU的可擴(kuò)展數(shù)量提高到576個(gè)。英偉達(dá)還推出一些AI安全功能來(lái)確保數(shù)據(jù)中心GPU的最大正常運(yùn)行時(shí)間。8個(gè)GB200 NVL72機(jī)架可組成1個(gè)SuperPOD,與800Gb/s InfiniBand或以太網(wǎng)互連,或者可以創(chuàng)建一個(gè)將576個(gè)GPU互連的大型共享內(nèi)存系統(tǒng)。
據(jù)Ian Buck透露,目前最大配置的576個(gè)GPU互連主要是用于研究,而不是生產(chǎn)。
05.結(jié)語(yǔ):八年伏脈,一朝登頂
從打造垂直生態(tài)的角度來(lái)看,英偉達(dá)越來(lái)越像芯片和AI計(jì)算領(lǐng)域的蘋(píng)果,在研發(fā)、工程和生態(tài)方面都展現(xiàn)出強(qiáng)大而全面的統(tǒng)治力。就像蘋(píng)果用App Store牢牢粘住開(kāi)發(fā)者和消費(fèi)者一樣,英偉達(dá)已經(jīng)打造了完備的芯片、系統(tǒng)、網(wǎng)絡(luò)、安全以及各種開(kāi)發(fā)者所需的軟件,用最好的軟硬件組合不斷降低在GPU上加速AI計(jì)算的門(mén)檻,讓自己始終處于企業(yè)及開(kāi)發(fā)者的首選之列。
在數(shù)據(jù)中心,看單個(gè)芯片峰值性能沒(méi)什么意義,很多芯片連在一起實(shí)現(xiàn)的實(shí)質(zhì)性算力改進(jìn),才有直接參考性。所以黃仁勛要賣(mài)“系統(tǒng)”,是一步跨到數(shù)據(jù)中心客戶算力需求的終點(diǎn)。
相比上一代Hopper,Blackwell GPU的主要優(yōu)化沒(méi)有依賴制程工藝技術(shù)的提升,而是更先進(jìn)的內(nèi)存、更快的片內(nèi)互聯(lián)速度,并通過(guò)升級(jí)片間互連、多機(jī)互連的速度以及可擴(kuò)展性、管理軟件,消除大量數(shù)據(jù)處理導(dǎo)致的通信瓶頸,從而將大量GPU連成一個(gè)更具成本效益的強(qiáng)大系統(tǒng)。
草蛇灰線,伏脈千里。將芯片、存儲(chǔ)、網(wǎng)絡(luò)、軟件等各環(huán)節(jié)協(xié)同的系統(tǒng)設(shè)計(jì)之路,英偉達(dá)早在8年前就在探索。
2016年4月,黃仁勛親手將第一臺(tái)內(nèi)置8個(gè)P100 GPU的超級(jí)計(jì)算機(jī)DGX-1贈(zèng)予OpenAI團(tuán)隊(duì)。之后隨著GPU和互連技術(shù)的更新?lián)Q代,DGX也會(huì)隨之升級(jí),系統(tǒng)性能與日俱增。數(shù)據(jù)中心AI芯片是當(dāng)前硅谷最熱門(mén)的硬件產(chǎn)品。而英偉達(dá)是這個(gè)行業(yè)的規(guī)則制定者,也是離生成式AI客戶需求最近的企業(yè),其對(duì)下一代芯片架構(gòu)的設(shè)計(jì)與銷(xiāo)售策略具有行業(yè)風(fēng)向標(biāo)的作用。
通過(guò)實(shí)現(xiàn)讓數(shù)百萬(wàn)個(gè)GPU共同執(zhí)行計(jì)算任務(wù)并最大限度提高能效的基礎(chǔ)創(chuàng)新,黃仁勛反復(fù)強(qiáng)調(diào)的“買(mǎi)得越多 省得越多”已經(jīng)越來(lái)越具有說(shuō)服力。