座艙SoC天花板是SA8295P?當(dāng)然不是,AMD的一系列嵌入式處理器都可以碾壓SA8295P,高通自己的座艙SoC如SA8255P也可以在AI領(lǐng)域超越SA8295P,主要原因是SA8295P是2021年初的產(chǎn)品,其設(shè)計(jì)范圍在2020年就已確定了,卻沒(méi)想到座艙領(lǐng)域被中國(guó)車企卷得不成樣子,遂在定位低于SA8295P的產(chǎn)品上也持續(xù)加大算力。
2023年9月19日,極越01首發(fā)高通驍龍8295智艙芯片。驍龍8295是最強(qiáng)的車機(jī)芯片,采用5nm制程工藝、8倍于8155的算力。在安兔兔車機(jī)性能榜單中,其跑分近70萬(wàn),幾乎是驍龍8155的2倍。就在同一天下午,高合在展翼日正式發(fā)布自研高算力智能座艙平臺(tái)。該平臺(tái)將首搭高通QCS8550芯片,實(shí)現(xiàn)行業(yè)首發(fā),根據(jù)官方數(shù)據(jù)對(duì)比顯示,全面優(yōu)于SA8295。不出意外的話,比亞迪下一代也會(huì)用QCS8550。
兩者最大性能差別就是AI算力。
圖片來(lái)源:高通
這張圖有混淆視聽(tīng)之嫌,需要解釋清楚,這個(gè)96TOPS是INT4精度下的算力,而SA8295P是不支持INT4精度的。不過(guò)即便比INT8精度,QCS8550也有48TOPS,也是遙遙領(lǐng)先。
CPU也碾壓SA8295P,高達(dá)300kDMIPS,GPU是Adreno 740,算力達(dá)3.6TFLOPS,同樣比SA8295P要高。就制造工藝而言,QCS8550是4納米,SA8295P還是5納米。
QCS8550是何方神圣?
圖片來(lái)源:高通
上圖是高通對(duì)QCS8550/QCM8550的定位,顯然它不是車規(guī)級(jí)芯片,不過(guò)這無(wú)所謂,特斯拉Model S那顆AMD顯卡芯片連工業(yè)級(jí)都沒(méi)做到,也沒(méi)人指責(zé)過(guò),這個(gè)至少是工業(yè)級(jí),不是消費(fèi)級(jí)的。而現(xiàn)在的Model 3/Y上用的AMD Ryzen V1000系列產(chǎn)品,是工業(yè)級(jí)產(chǎn)品,也不是車規(guī)級(jí)的,也沒(méi)人敢指責(zé)特斯拉。再有就是國(guó)內(nèi)頂級(jí)新能源大廠一直都是用高通非車規(guī)級(jí)模組做座艙,用非車規(guī)級(jí)做座艙的至少有30%以上。
高通QCS8550/QCM8550的參數(shù)
圖片來(lái)源:高通
QCM就是帶modem??匆谎圻@個(gè)CPU配置,略有經(jīng)驗(yàn)的人便能看出,這就是手機(jī)領(lǐng)域驍龍8gen2的修改版,實(shí)際單看型號(hào)也能看出,8Gen2的型號(hào)就是SM8550。
驍龍8Gen3和8Gen2對(duì)比
https://www.androidauthority.com/snapdragon-8-gen-3-vs-snapdragon-8-gen-2-3381660/
上表對(duì)比后不難發(fā)現(xiàn),QCS8550就是8Gen2,兩者完全一致。
強(qiáng)大的AI算力不難做到,難以做到的是低成本下的高AI算力,而高通最擅長(zhǎng)的就是低成本下的AI算力。對(duì)芯片來(lái)說(shuō)硬件成本基本等同于die size面積大小,高通SoC 的die size一般都很小,一般都低于120平方毫米,而英偉達(dá)Orin和華為MDC 610要400平方毫米以上。座艙SoC中,高通的AI算力異乎尋常地強(qiáng),這個(gè)48TOPS真能運(yùn)行大模型么?當(dāng)然不能運(yùn)行ChatGPT3這種大模型,就算單張H100也不能,流暢運(yùn)行ChatGPT3至少需要8張H100和兩片6千美元的CPU芯片。
高通的AI算力這么強(qiáng)主要源自其獨(dú)特的DSP架構(gòu)和VLIW指令集,其淵源是ATI,早在2004年高通與ATI達(dá)成合作計(jì)劃,決定把ATI公司的3D圖形技術(shù)集成到高通下一代移動(dòng)處理器之中,看中的就是ATI Imageon。后來(lái)ATI被AMD收購(gòu),ATI Imageon也更名為AMD Imageon。2009年,高通以6500萬(wàn)美元收購(gòu)了AMD的移動(dòng)設(shè)備資產(chǎn),取得了AMD的矢量繪圖與3D繪圖技術(shù)相關(guān)知識(shí)產(chǎn)權(quán),不用再向AMD繳納技術(shù)授權(quán)費(fèi)用。后來(lái)高通獨(dú)立發(fā)展出了一種全新的GPU品牌體系——Adreno。Adreno GPU此后不斷開(kāi)花結(jié)果,歷經(jīng)多年演化,占據(jù)了移動(dòng)GPU市場(chǎng)的主導(dǎo)地位。
實(shí)際ATI的技術(shù)不止供養(yǎng)了日后的Adreno,ATI也開(kāi)發(fā)了VLIW技術(shù)。以ATI Radeon HD 5800為例,GPU由20個(gè)SIMD計(jì)算引擎組成,每個(gè)SIMD計(jì)算引擎由16個(gè)線程處理器單元(Thread Processor - TP)組成。而每個(gè)TP則是一個(gè)5-way的VLIW Processor。雖然后來(lái)VLIW退出GPU領(lǐng)域,但在DSP領(lǐng)域大放異彩,在AI時(shí)代更是大展神威,助力高通成為移動(dòng)霸主。
VLIW就是超長(zhǎng)指令集。
幾種指令集的對(duì)比
VLIW類似于多條RISC指令的集合,VLIW的思路是硬件盡量簡(jiǎn)單化,硬件只負(fù)責(zé)取指令和執(zhí)行指令,其余一概不管,把困難推給編譯器,讓編譯器來(lái)做指令調(diào)度。首先我們還得知道編譯器是什么,比如C語(yǔ)言、C++、Java這樣的程序,當(dāng)我們一行一行寫下代碼后,需要經(jīng)過(guò)編譯器的“翻譯”才能變成可執(zhí)行程序才可以執(zhí)行,才可以實(shí)現(xiàn)代碼到程序的轉(zhuǎn)變。電腦(其實(shí)主要就是CPU)只認(rèn)識(shí)0或1這兩個(gè)數(shù)字。所有寫的一切代碼,都需要編譯器幫我們編譯也就是翻譯成大量的01代碼(實(shí)際中間還有一步就是生成匯編代碼),才是CPU的“母語(yǔ)”,CPU才會(huì)熟練的幫我們飛速般去執(zhí)行。
VLIW把多條獨(dú)立的指令打包為一個(gè)指令集并交給編譯器,編譯器根據(jù)指令的不同形式判斷指令的運(yùn)行周期,將運(yùn)行周期比較一致的指令安排在一起發(fā)射并執(zhí)行。VLIW最大好處是實(shí)現(xiàn)了并行計(jì)算,比如VLIW的數(shù)據(jù)總線長(zhǎng)如果是1024比特,那么對(duì)4比特?cái)?shù)據(jù),一次可以取256個(gè),取到數(shù)據(jù)進(jìn)行并行計(jì)算(前提是你得有256套ALU加寄存器之類的硬件系統(tǒng)),一個(gè)指令就可以完成256個(gè)周期運(yùn)算,如同256個(gè)內(nèi)核。缺點(diǎn)很明顯,如果這256個(gè)計(jì)算中有一個(gè)卡殼了,那么其余255個(gè)必須停下來(lái)等待這個(gè)計(jì)算完成,這就是鎖步,大家的步伐必須完全一致,而傳統(tǒng)的超標(biāo)量CPU不會(huì),它可以亂序執(zhí)行。還有一個(gè)缺點(diǎn)就是即使只有10個(gè)指令,其余那246個(gè)也必須空轉(zhuǎn),這意味著功耗很高。這與近期的SIMD可變矢量長(zhǎng)度非常近似,但SIMD只是一次性取了256個(gè)4比特?cái)?shù)據(jù),VLIW完全依靠軟件就實(shí)現(xiàn)了并行計(jì)算。1994年英特爾和惠普簽訂協(xié)議,宣布共同開(kāi)發(fā)面向高性能計(jì)算(HPC)的處理器,也就是后來(lái)的Itanium,安騰。他們以VLIW指令作為基礎(chǔ),提出了顯式并行指令集運(yùn)算EPIC( Explicitly parallel instruction computing)。不過(guò)這對(duì)開(kāi)放式軟件系統(tǒng)挑戰(zhàn)太大,2000年以后就消失了,但VLIW+DSP慢慢崛起了。
VLIW處理器示意圖
DSP與傳統(tǒng)CPU或GPU最大不同是其采用哈佛架構(gòu),將存儲(chǔ)器空間劃分成兩個(gè),分別存儲(chǔ)程序和數(shù)據(jù)。它們有兩組總線連接到處理器核,允許同時(shí)對(duì)它們進(jìn)行訪問(wèn),每個(gè)存儲(chǔ)器獨(dú)立編址,獨(dú)立訪問(wèn)。這種安排將處理器的數(shù)據(jù)吞吐率加倍,更重要的是同時(shí)為處理器核提供數(shù)據(jù)與指令。DSP芯片廣泛采用2-6級(jí)流水線以減少指令執(zhí)行時(shí)間,從而增強(qiáng)了處理器的處理能力。這可使指令執(zhí)行能完全重疊,每個(gè)指令周期內(nèi),不同的指令都處于激活狀態(tài)。更像是脈動(dòng)處理器,數(shù)據(jù)一次導(dǎo)入,流轉(zhuǎn)周期很長(zhǎng),效率極高。DSP最強(qiáng)之處還有它可實(shí)現(xiàn)零開(kāi)銷循環(huán),而AI引擎通常就是零開(kāi)銷循環(huán)結(jié)構(gòu),不會(huì)發(fā)生任何用于比較和分支的分支控制開(kāi)銷。
但DSP本質(zhì)還是近似CPU的設(shè)計(jì),不適合做并行計(jì)算,它最適合的是圖像壓縮算法或快速傅里葉變換(FFT)這種算法,即串行數(shù)據(jù)流形式的計(jì)算,而VLIW是天生并行指令集,二者結(jié)合后就非常適合AI運(yùn)算,AI運(yùn)算即是并行矩陣運(yùn)算,也是數(shù)據(jù)流形式。
高通的AI表現(xiàn)與編譯器關(guān)系非常密切,但大家都知道編譯器是靜態(tài)的,無(wú)法實(shí)現(xiàn)動(dòng)態(tài)調(diào)整,因此某些模型可能在高通芯片表現(xiàn)很差,很多搞座艙的都沒(méi)使用過(guò)高通的DSP運(yùn)算能力,智能駕駛領(lǐng)域用DSP的人也很少,因?yàn)樘y用了。而高通唯一一款通用AI計(jì)算器AI100上,高通沒(méi)有使用其最擅長(zhǎng)的DSP架構(gòu),而是傳統(tǒng)的MAC陣列架構(gòu),主要也是為了盡可能擴(kuò)大應(yīng)用面。
大模型是可以跑,但誰(shuí)都不會(huì)公布延遲是多少毫秒,AI算力這游戲還是蠻有趣的。