2024年英偉達GTC大會上,英偉達宣布了Drive Thor獲得一系列客戶采納,包括比亞迪、小鵬和廣汽埃安Hyper,不過沒有極氪的名字,有點意外,極氪所在的吉利集團子公司芯擎則在3月20號的億咖通Tech Day上布了與英偉達Orin對標(biāo)的AD1000芯片,極氪很有可能不會使用Thor了。毫無意外,Drive Thor也采用了跟英偉達最新GPU B100/B200/GB200的Blackwell架構(gòu)。
今天我們來著重看一下最新的Blackwell架構(gòu),大部分專業(yè)人士和投資者對新的Blackwell架構(gòu)沒有多少好感,發(fā)布新產(chǎn)品后,英偉達股價有所下跌,平心而論,Blackwell的確乏善可陳。
此外,英偉達也更改了對Thor算力的描述,https://nvidianews.nvidia.com/news/nvidia-drive-powers-next-generation-transportation,明確指出是1000TOPS,而在2022年9月的新聞稿里,https://nvidianews.nvidia.com/news/nvidia-unveils-drive-thor-centralized-car-computer-unifying-cluster-infotainment-automated-driving-and-parking-in-a-single-cost-saving-system明確指出是2000TOPS,當(dāng)然這個沒有點明模型精度,或許2000TOPS是FP4精度。Thor應(yīng)該和Orin一樣有多個版本,頂配算力1000TOPS,低配可能是500TOPS。
北京時間3月19日,采用英偉達新一代GPU架構(gòu)Blackwell的首款產(chǎn)品B100和B200正式發(fā)布,同時發(fā)布的還有GB200系統(tǒng)以及售價可能超過500萬美元的GB200 NVL72服務(wù)器。
簡單地說就是將兩顆H100放在了一起,就像蘋果的M1系列一樣。
蘋果的M1Max可以持續(xù)擴展出多個產(chǎn)品,英偉達的B100也是如此,兩者用的技術(shù)都一樣,都是MCM。
英偉達三代GPU旗艦對比。
GB200的GPU部分,差不多等于拼湊了4個B100,性能是10000FLOPS@FP8,單個B100的性能是3500FLOPS@FP8。盡管有最新的高達1.8TB/s的NVLink加持,性能也只是勉強3倍。而通常車載網(wǎng)絡(luò)是1GB/s,遠低于NVLink,4個Orin級聯(lián)頂多能算1.05倍也就是267TOPS的算力。
三款Blackwell架構(gòu)產(chǎn)品的性能對比,B100可能是B200的降頻版,會在2024年推出,而B200要等到2025年才能推出,和H100的單GPU die相比,B100和B200都是雙GPU die,H100使用臺積電N4工藝,800億個晶體管,die size是814平方毫米,B100和B200都是使用臺積電4NP工藝,die size可能是880平方毫米,晶體管密度提高,同時die size也大了,最終是1040億晶體管。B100的性能是3500TFLOPS,H100 SXM5型是3958TFLOPS,性能沒有提升,反而下降了,當(dāng)然和性能稍差的H100 PCIe版相比大約提高了474TOFLOPS,但是H100 PCIe的TDP功耗只有300瓦,而B100是700瓦。和H100相比,B100提升不多,甚至沒有提升。
2017年6月英偉達發(fā)表論文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM設(shè)計,直到7年后才付諸產(chǎn)品。
圖片來源:NVIDIA
MCM-GPU設(shè)計基本就是現(xiàn)在比較火爆的Chiplet設(shè)計,但是英偉達一直未將MCM付諸實際設(shè)計中。英偉達一直堅持Monolithic單一光刻設(shè)計,這是因為die與die之間通訊帶寬永遠無法和monolithic內(nèi)部的通訊帶寬比,換句話說Chiplet不適合高AI算力場合,在純CPU領(lǐng)域是Chiplet的最佳應(yīng)用領(lǐng)域。
圖片來源:NVIDIA
英偉達2017年論文提及的MCM-GPU架構(gòu)如上圖,英偉達在MCM-GPU架構(gòu)里主要引入了L1.5緩存,它介于L1緩存和L2緩存之間,XBAR是Crossbar,英偉達的解釋是XBAR負(fù)責(zé)將數(shù)據(jù)包從給定的源單元傳輸?shù)教囟ǖ哪繕?biāo)單元。有點像交換或路由。GPM就是GPU模塊。
英偉達再次提到了芯片物理限制,因為光掩膜的限制,芯片的面積無法超過880(也有說是850)平方毫米,這是物理極限,除非光刻機領(lǐng)域出現(xiàn)革命性革新。同時芯片面積越大,良率就越低,成本就越高,這是Chiplet產(chǎn)生的根本原因,不過英偉達對Chiplet不屑一顧。英偉達一直堅持Monolithic單一光刻設(shè)計,這是因為Chiplet的die與die之間通訊帶寬永遠無法和monolithic內(nèi)部的通訊帶寬相提并論。
很多人引用這張圖,芯片Die 尺寸750平方毫米的良率只有35.7%,50平方毫米是94.2%,實際沒有這么夸張。英偉達的A100的die尺寸高達826平方毫米,H100的die尺寸也有814平方毫米,遠超750平方毫米。但是英偉達依靠CUDA建立的護城河,產(chǎn)品具有極高溢價,不在乎成本高昂,英偉達有能力將成本轉(zhuǎn)嫁到下游客戶頭上。
NVIDIA的H100利潤率達到90%。同時也給出了估算的H100的成本構(gòu)成,NVIDIA向臺積電下訂單,用 N4工藝制造 GPU 芯片,平均每顆成本 155 美元。NVIDIA從 SK 海力士(未來可能有三星、美光)采購六顆 HBM3芯片,成本大概 2000 美元。臺積電生產(chǎn)出來的 GPU 和NVIDIA采購的 HBM3 芯片,一起送到臺積電 CoWoS 封裝產(chǎn)線,以性能折損最小的方式加工成 H100,成本大約 723 美元 。
B100的HBM是192GB的HBM3E,成本大概5000美元,die size加倍,制造和封裝成本增加超過一倍,大概是2000美元,B100和B200的成本大約7000美元,英偉達一貫90%的利潤率,B100售價大概7萬美元,B200大概8萬美元。
Thor的CPU部分可能會與英偉達Grace一樣,使用ARM Neoverse的V2架構(gòu),核心數(shù)肯定不需要72顆,12或16核心足夠了。Thor肯定無法使用昂貴的HBM,最多可能是GDDR6存儲。頂配Thor的售價估計在1000美元左右,低配估計600美元,英偉達可能是考慮成本因素,才將算力縮水了一半。
英偉達是不是有些江郎才盡了?
免責(zé)說明:本文觀點和數(shù)據(jù)僅供參考,和實際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點、數(shù)據(jù)僅代表筆者立場,不具有任何指導(dǎo)、投資和決策意見。