2024年8月8日下午,英特爾在深圳召開“英特爾AI座艙暨車載獨立顯卡發(fā)布會”,重磅發(fā)布了旗下首款銳炫?車載獨立顯卡——Arc A760-A。英特爾之所以選擇在深圳發(fā)布車載獨立顯卡,再次彰顯中國汽車電子的先進程度,也只有在中國,車載獨立顯卡才可能有市場,即便特斯拉也只是出貨量低到可以忽略的Model S Plaid使用過AMD的獨立顯卡,而且主力車型還是AMD的嵌入式平臺,沒有獨立顯卡。中國汽車市場尤其注重座艙體驗,并以此為賣點和差異化,車企都不惜成本來打造先進的座艙。
要流暢運行AI大模型主要依賴三個條件:① 存儲帶寬,② 存儲容量,③算力。這里的“流暢”,對大模型推理來說,首個token產(chǎn)生要低于1秒,后續(xù)token產(chǎn)生要低于2秒。
目前AI大模型都是針對因果建模目標(biāo)進行預(yù)訓(xùn)練的,本質(zhì)上是作為下一個詞預(yù)測器。這些 LLM 將一系列tokens作為輸入,并自回歸生成后續(xù)tokens,直到滿足停止條件(例如,生成tokens數(shù)量的限制或遇到停止詞)或直到生成特殊的標(biāo)記生成結(jié)束的tokens。該過程涉及兩個階段:預(yù)填充階段和解碼階段。
在預(yù)填充階段,LLM處理輸入token以計算中間狀態(tài)(keys和value),用于生成“第一個”token。每個新的token都依賴于所有先前的token,但由于輸入的全部已知,因此在運算上,都是高度并行化矩陣運算,可以有效地使用GPU。也就是說首個token的延遲取決于算力。
在解碼階段,LLM一次自回歸生成一個輸出token,直到滿足停止條件。每個輸出tokens都需要直到之前迭代的所有輸出狀態(tài)(keys和values)。這與預(yù)填充輸入處理相比,就像矩陣向量運算未充分利用GPU計算能力。數(shù)據(jù)(weights, keys, values, activations) 從內(nèi)存?zhèn)鬏數(shù)紾PU的速度決定了延遲,而不是計算實際時間消耗。即,這是一個內(nèi)存限制操作。解碼階段,或者說后續(xù)token生成階段推理延遲時間是由大模型參數(shù)與存儲帶寬的之比決定。
首先來看存儲容量,在GPU做推理時,一般把存儲直接寫成顯存,但車載領(lǐng)域除非是獨立顯卡或者蘋果那樣的統(tǒng)一內(nèi)存UMA(Unified Memory Architecture),都是AI加速器(GPU)和CPU共享內(nèi)存,實際用于AI大模型的存儲容量會遠低于共享內(nèi)存的容量。高端車機的DRAM內(nèi)存容量在8-22GB之間,絕大多數(shù)基于高通SA8155的DRAM內(nèi)存容量是8GB,基于高通SA8295的DRAM內(nèi)存容量一般是12GB或16GB。
目前LLM大模型參數(shù)量一般有四檔,最低一檔是針對嵌入式,參數(shù)在60-80億之間,第二檔是130-450億,第三檔是700-800億,第四檔是1500億以上。座艙的AI大模型有可能同時運行兩個大模型,最高參數(shù)上限大約是140億參數(shù),車載領(lǐng)域最低的INT8精度,140億參數(shù)就是14GB的容量。車機那種共享存儲的方式,車機操作系統(tǒng)、中間層、虛擬機等等所占存儲巨大,為保證車機流暢,分給AI大模型的容量不會超過50%。也就是說要支持140億參數(shù),那么車機的DRAM至少要28GB,這是大模型的最低下限。對于真正的大模型,參數(shù)一般是700億,需要140GB的DRAM,這在車載領(lǐng)域完全不可想象,體積巨大,成本高昂。對于有獨立顯存的獨立顯卡只需要14GB就足夠,英特爾的獨立顯卡的顯存容量正是16GB。
如果DRAM容量低于大模型存儲容量,那么與電腦一樣,會轉(zhuǎn)入硬盤,對車機來說就是UFS,UFS目前高端的3.1版本,連續(xù)讀取速度很低,只有2.1GB/s,而英偉達Orin的帶寬是204.8,相差近百倍,延遲估計超過1分鐘,完全無法接受。
對大模型來說,存儲容量是最重要的,算力遠不及存儲容量,這也是為何算力不到300TOPS的Mac Studio with an M2 Ultra頂配可以運行高達3140億參數(shù)的超級大模型,Mac Studio with an M2 Ultra頂配統(tǒng)一內(nèi)存容量高達192GB,價格近9000美元。
存儲帶寬決定了推理計算速度的上限,假設(shè)一個大模型參數(shù)為70億,按照車載的INT8精度,它所占的存儲是7GB,如果是英偉達的RTX4090,它的顯存帶寬是1008GB/s,也就是每7毫秒生成一個token,這個就是RTX4090的理論速度上限。特斯拉第一代FSD芯片的存儲帶寬是63.5GB/s,也就是每110毫秒生成一個token,幀率不到10Hz,自動駕駛領(lǐng)域一般圖像幀率是30Hz,英偉達的Orin存儲帶寬是204.5GB/s,即每34毫秒生成一個token,勉強可以達到30Hz,注意這只是計算的數(shù)據(jù)搬運所需要的時間,數(shù)據(jù)計算的時間都完全忽略了,實際速度要遠低于這個數(shù)據(jù)。并且一個token也不夠用,至少需要兩個token,端到端的最終輸出結(jié)果用語言描述就是一段軌跡,比如直行,直行需要有個限制條件,至少有個速度的限制條件,多的可能需要5個以上token,簡單計算即可得出存儲帶寬需要1TB/s以上。
座艙領(lǐng)域不需要那么高的幀率,但座艙領(lǐng)域的模型更大,存儲帶寬最好在500GB/s以上。
汽車SoC芯片存儲帶寬一覽
來源:佐思汽研整理
YE180FC3T4MFG就是目前特斯拉車機用的主芯片。Snapdragon X-lite是高通第四代芯片,還沒有與之對應(yīng)的車載版本。而最常見的SA8155P其存儲帶寬是很低的。
最后是AI算力,這個只關(guān)系首個token的生成,重要程度很低,當(dāng)然算力越高越好。
英特爾這次推出的獨立顯卡ARC A760-A基本上就是其2022年產(chǎn)品ARC A750的車載版。
來源:佐思汽研整理
不過在面向汽車時,Arc A760-A自然有一些特有技能。符合車規(guī)要求,包括寬溫、嚴(yán)苛環(huán)境的高等級可靠性、穩(wěn)定性特性是基本屬性。再有就是對OS和虛擬機的支持,ACRN是英特爾主導(dǎo)的開源虛擬機平臺,奇瑞和紅旗都曾經(jīng)用過,Yocto可以看做是嵌入式的Linux。
A750與A760-A最大的區(qū)別是存儲容量不同,A760-A增加到了16GB,其余硬件特性基本相同。我們可以大致推測出A760-A的一些硬件特性,采用臺積電的6納米N6工藝制造,217億晶體管,die size為406平方毫米。
矢量引擎改進了ALU單元,提供專用的FP浮點執(zhí)行接口,共享的INT/EM整數(shù)執(zhí)行接口,每個時鐘周期可以執(zhí)行16個FP32操作、32個FP16操作、64個INT8操作。
由于AI算法核心幾乎完全圍繞矩陣乘法、累加算法,所以Xe核心里加入了單獨的矩陣引擎,專門用于執(zhí)行XMX指令。它具備獨立的執(zhí)行端口,每個時鐘周期可以執(zhí)行128個FP16/BF16操作、256個INT8操作,512個INT4/INT2操作。MAC作為圖形渲染中的基本SIMD矢量指令,也是Xe矢量引擎的核心,可以執(zhí)行8次并行乘法,然后執(zhí)行8次并行加法,每個時鐘周期就是16個操作。
DP4a指令是針對不需要32位精度的AI計算所做的優(yōu)化,工作原理是將所有32位輸入分成8位塊,然后獨立執(zhí)行,總共32次并行乘法(紫色方塊),每個時鐘周期就是64個操作,相比標(biāo)準(zhǔn)SIMD MAC提高了4倍。XMX指令也是每個操作分成4個塊,然后獨立相乘、累加,共有64個操作,每個時鐘周期4個階段就是256個操作,由此帶來16倍的算力提升。
根據(jù)存儲16GB的信息來看,英特爾肯定不會單獨出售芯片,出售的方式應(yīng)該是板卡或者干脆就是A750那樣的整機。由于獨立顯卡的供電也是汽車領(lǐng)域常用的12伏,所以A760-A的供電完全可以照搬A750的供電設(shè)計。
A750顯卡的正面PCB
上圖是A750顯卡的正面PCB,GPU供電是六相設(shè)計,電源管理是MPS的MPS2134,DrMOS是MPS的MP86956,可以對應(yīng)高達70A的電流,存儲的電源管理也是MPS的MPS2134。DrMOS是MPS的MP86950,對應(yīng)50A的電流,DP轉(zhuǎn)HDMI是Realtek的RTD2173。MP86956值得一提,它輸入電壓介于3-16伏之間,輸出電流穩(wěn)定在70A,最高瞬間125A,最高運行溫度高達125度,junction溫度高達150度。
根據(jù)英特爾介紹,A760-A支持6路攝像頭輸入,顯卡一般只有PCIe接口,攝像頭一般是MIPI CSI-2格式,英特爾應(yīng)該是加了轉(zhuǎn)換卡,將MIPI CSI-2轉(zhuǎn)換為PCIe或以太網(wǎng)格式。如果是以太網(wǎng),那就是采用Marvell的88QB5224,將MIPI CSI-2信號轉(zhuǎn)換為符合802.3ch標(biāo)準(zhǔn)的車載以太網(wǎng)信號,可以使用非屏蔽的單對雙絞線,最高傳輸速率10Gbps,最高可以支持800萬像素的攝像頭,也可以支持多個攝像頭,只需要增加以太網(wǎng)交換機即可。
88QB5224的框架如上圖,后端可以輸出也可以直接給PC系統(tǒng)的萬兆網(wǎng)卡接口,萬兆網(wǎng)卡再通過PCIe輸入到CPU。
基于FPGA的MIPI CSI-2轉(zhuǎn)PCIe框架圖
第二種是PCIe,采用LATTICE的FPGA,將MIPI CSI-2輸出信號即原始的RAW信號首先放進一個ISP中,將RAW信號轉(zhuǎn)換成RGB信號再轉(zhuǎn)換YUV422信號,然后通過直接存儲接入即DMA引擎,根據(jù)輸出端的視頻幀率調(diào)整緩沖幀。FPGA內(nèi)的Transaction Layer Packet即TLP對YUV422信號進行解碼,再生成PCIe格式數(shù)據(jù),最高傳輸速率為3.1Gbps。
PCIe的成本要高很多,還需要更貴的PCIe交換機,推測還是以太網(wǎng)的可能性大,不過這令人十分困惑,顯卡不需要單獨外接攝像頭信號,直接接收攝像頭信號的是CPU,顯卡再通過PCIe與CPU連接。
英特爾A750獨立顯卡性能大概是英偉達的RTX3060。A750價格約為1800-2000元人民幣左右,RTX3060價格基本上是翻倍的3600-4000元人民幣,A760-A加了一倍內(nèi)存,還可能加了MIPI CSI-2轉(zhuǎn)接卡,價格估計要高1000-1500元人民幣。不過最難的應(yīng)該是功耗,TDP功耗高達225瓦,這是一個不容忽視的耗電源。散熱和可靠性也要考慮,最好是水冷散熱,否則要在機艙內(nèi)給顯卡留出足夠的空間空氣對流。
最麻煩的還是獨立顯卡是外設(shè),它不能獨立工作,它需要CPU配合,配合最好的自然是英特爾自家的CPU,英特爾獨立顯卡的DeepLink技術(shù)正是基于此開發(fā),別的CPU用起來效率應(yīng)該是不如英特爾自己的CPU。
免責(zé)說明:本文觀點和數(shù)據(jù)僅供參考,和實際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點、數(shù)據(jù)僅代表筆者立場,不具有任何指導(dǎo)、投資和決策意見。