?作者 | 肖恩,編輯 | 德新
自研芯片,頭部智駕新戰(zhàn)場
在8月小鵬MONA M03的發(fā)布會上,何小鵬宣布自研的圖靈芯片流片成功,這使其成為繼蔚來之后第二家正式公布自研智駕芯片的主機廠。早在去年的9月份,蔚來就對外公布了自研的智駕芯片——神璣NX9031,號稱1顆更比4顆強,并在7月份的蔚來科技日上宣布流片成功。理想內(nèi)部也在推進自研芯片項目,代號「舒馬赫」,雖然項目開始的時間相對晚一些,但是預(yù)計也將于年內(nèi)流片。
除此之外,比亞迪、Momenta也有自研智駕芯片項目正在進行。芯片是個高投入、長周期的行業(yè),研發(fā)周期最少需要2 - 3年。除了高昂的研發(fā)成本外,后續(xù)還要投入巨額的流片費用,單次流片的成本至少需要幾千萬元,如果要設(shè)計一顆5nm的芯片,最終的研發(fā)成本可能高達(dá)20 - 30億元。除了高額的投入之外,還要面對技術(shù)上的風(fēng)險,流片失敗、良品率低、性能不達(dá)標(biāo)等都是第一次踏足芯片行業(yè)的公司可能會碰到的問題。
盡管如此,國內(nèi)智駕行業(yè)的頭部公司卻都不約而同地走上了自研芯片的道路。這篇文章,你將看到:
新勢力執(zhí)著自研芯片的原因;
新勢力為什么執(zhí)著自研智駕芯片?
最直接的原因是成本。以市場上高階智駕車型普遍使用的英偉達(dá)Orin X為例,剛發(fā)售時單顆售價超過500美金,即使現(xiàn)在也需要400美金一顆,支持城區(qū)高階輔助駕駛的功能至少需要2顆Orin X,而像蔚來這樣全系標(biāo)配4顆Orin X的車型,僅僅采購芯片的成本就超過了1萬元。
一顆高階自研芯片的研發(fā)投入雖然超過20億元,如果生命周期的用量超過100萬片,那么單片的成本可以降至2000元。按照蔚來公布的信息,一顆自研的NX9031能夠替代4顆Orin X,即使一車使用2片,也能有上千元的成本節(jié)約,而隨著出貨量的提升,自研芯片的成本優(yōu)勢會進一步放大。因此對于蔚來和小鵬這樣高階智駕芯片需求量大的車企來說,自研芯片是一筆非常劃算的「生意」。
第二個重要的原因是性能。特斯拉作為智駕行業(yè)的先驅(qū),也經(jīng)歷了智駕芯片從外采到自研的過程。在最早的Model S上使用的是Mobileye的EyeQ芯片,由于Mobileye是業(yè)內(nèi)出名的「小黑盒」,特斯拉很快就轉(zhuǎn)向了英偉達(dá),而隨著算法的不斷進化,英偉達(dá)的芯片已經(jīng)無法滿足特斯拉的要求,因此自研芯片就順理成章。特斯拉第一代的FSD芯片于2019年量產(chǎn),單顆算力達(dá)到了72 TOPs。那時英偉達(dá)的Orin X還未上市,F(xiàn)SD芯片的性能秒殺市面上所有的智駕芯片。從這時候開始,特斯拉的算法加速進化,從Transformer到占用格柵網(wǎng)絡(luò),再到現(xiàn)在的端到端大模型,每一次升級都帶領(lǐng)智駕行業(yè)向前躍進。
在算法上,國內(nèi)的智駕公司一直緊跟特斯拉的步伐。進入端到端的階段后,各家對算法也有著自己的理解,蔚來利用生成式AI設(shè)計了NWM世界模型,理想為了解決端到端大模型可解釋性差的問題,將架構(gòu)升級為「端到端+VLM」,而小鵬則和特斯拉一樣堅信純視覺才是智能駕駛的終局,發(fā)布了下一代AI鷹眼純視覺方案。但是要最大限度的發(fā)揮算法的能力,必須要有和軟件深度融合的硬件,自研芯片則是最理想的方式。
還有一個原因是出于供應(yīng)鏈的考慮,2020年正是美國開始全面制裁華為的時候,經(jīng)過幾輪的制裁,華為無法生產(chǎn)高端芯片,手機業(yè)務(wù)受到重創(chuàng)。彼時半導(dǎo)體市場還面臨缺芯的問題,芯片的供應(yīng)非常不穩(wěn)定,經(jīng)歷過這段時間的主機廠都深有體會,為了保證生產(chǎn)有時會需要數(shù)倍的價格來采購芯片。芯片是智駕的核心,從這時候開始以智駕為核心的主機廠意識到自研芯片的戰(zhàn)略意義,紛紛開始推進自研的計劃。
除了上面幾個原因之外,中國芯片產(chǎn)業(yè)的成熟也是主機廠開始自研芯片的基礎(chǔ),特別是芯片設(shè)計行業(yè),華為海思幾乎以一己之力將中國高端芯片的設(shè)計能力提高到了世界領(lǐng)先的水平。雖然受到美國的制裁后,海思的芯片之路遇到了很大的困難,但是卻為中國的芯片設(shè)計行業(yè)輸送了大量的人才,蔚來和小鵬的自研芯片項目的負(fù)責(zé)人均來自華為海思,可謂是中國芯片行業(yè)的黃埔軍校。
強大的芯片是「設(shè)計」出來的
在對比各家自研芯片的參數(shù)之前,我們需要了解一些智駕芯片的基礎(chǔ)知識。
芯片是半導(dǎo)體行業(yè)中一個非常廣義的概念,CPU、MCU、GPU、PMIC等等這些都屬于芯片中的一種,而我們通常所說的智駕芯片則屬于SOC(system on chip),也就是系統(tǒng)級芯片。它集成了CPU、GPU、NPU、ISP、和內(nèi)存等多個模塊,是一種集成度非常高的芯片。
以特斯拉的FSD芯片為例,內(nèi)部集成了一個12核的CPU、一個GPU、兩個NPU以及ISP和解碼器等模塊。其中ISP和解碼器負(fù)責(zé)處理輸入的視頻數(shù)據(jù),而CPU、GPU和NPU則是SOC中負(fù)責(zé)計算任務(wù)的模塊,但是所處理的任務(wù)類型不同。
算力
在討論智駕芯片性能強弱的時候,我們習(xí)慣用算力單位TOPs來衡量,它的含義是每秒執(zhí)行1萬億次操作。例如英偉達(dá)的OrinX,被公認(rèn)是目前市場上性能最強的智駕芯片,單顆芯片的最大算力達(dá)到了254 TOPs,而特斯拉的FSD芯片單顆算力只有72 TOPs,從這個數(shù)字上看,OrinX的算力確實很強,那么是否意味著TOPs越大的智駕芯片,性能就越好呢?
評價一個芯片性能的時候有很多算力單位,比如DMIPs、TFLOPs、TOPs。但我們習(xí)慣用TOPs來衡量智駕芯片的性能,這是因為現(xiàn)在自動駕駛算法對算力消耗最大的部分是感知端的CV算法,CV算法的核心是卷積神經(jīng)網(wǎng)絡(luò)(CNN),它的本質(zhì)是累積累加運算MAC(Multiply Accumulate),而TOPs可以很好地評價芯片在1s內(nèi)完成MAC操作的次數(shù)。
CPU
CPU也就是我們常說的中央處理器,能處理各種不同類型的任務(wù)和指令,它的設(shè)計遵循馮·諾依曼架構(gòu),這個架構(gòu)主要由運算器、控制器、存儲器、輸入設(shè)備、輸出設(shè)備等五個主要部分組成。每個核心都可以獨立處理指令,但是CPU采用的是串行運算方式,每個CPU核心一次只能執(zhí)行一個計算指令,完成后才能進行下一個計算。
上圖是一個4核CPU的典型架構(gòu),每個核心都可以獨立處理指令,但是CPU采用的是串行運算方式,每個CPU核心一次只能執(zhí)行一個計算指令,完成后才能進行下一個計算。
它的特點是通用性和邏輯控制力好,能夠處理各種復(fù)雜的計算需求,但是缺點也很明顯,不擅長處理計算量大的并行計算。在CPU上我們經(jīng)常會聽到X86和ARM的概念,他們分別對應(yīng)了兩種CPU架構(gòu),X86采用的是CISC復(fù)雜指令集,性能強大但是功耗較高,而ARM采用的RISV精簡指令集,追求的是性能和功耗的平衡。因此移動端和車端的CPU一般都是采用ARM架構(gòu)。最后聊一下CPU的算力單位DMIPs(Dhrystone Million Instructions Per Second)。
由于不同的指令集和架構(gòu)對CPU的性能都有影響,因此不能簡單的用CPU的主頻來評價,Dhrystone是一個基準(zhǔn)測試程序,通過測量CPU每秒能運行多少次Dhrystone程序來評價不同CPU的性能,例如100DMIPs代表每秒能運行1億次Dhrystone程序。自動駕駛中的傳感器融合、路徑規(guī)劃和決策等算法都需要強大的CPU性能支持。
GPU
CPU能處理復(fù)雜的計算任務(wù)但是不擅長并行計算,為了解決這個問題,GPU出現(xiàn)了,最開始是為了處理圖形任務(wù)而設(shè)計的,它擁有成百上千個計算單元,每個單元能獨立執(zhí)行指令,能夠并行處理大量的計算任務(wù)。
上圖是一個GPU的典型架構(gòu),和CPU相比它的邏輯控制單元和緩存都比較簡單,大部分空間都留給了計算單元。因此GPU適合處理大量并行計算任務(wù),但是不能處理復(fù)雜的指令,更適合處理邏輯簡單、類型統(tǒng)一的任務(wù),例如圖形處理和渲染。
由于圖形處理和渲染大需要大量的浮點運算,因此GPU的算力一般用TFLOPs來衡量。英偉達(dá)最新一代的顯卡RTX 4090的算力大約為48 TFLOPs,作為對比OrinX的算力是5.2 TFLOPs。和圖形處理類似,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練也需要大量的并行計算,因此GPU的架構(gòu)也非常適合用于深度學(xué)習(xí)的計算。OrinX的架構(gòu)就是以GPU為核心,可以實現(xiàn)int8精度下最大254TOPs的算力。
NPU
既然GPU可以很好地處理AI算法中的矩陣和卷積運算,為什么還需要NPU呢?GPU雖然性能強大,但是也有功耗高、成本昂貴等問題,而NPU是專為深度學(xué)習(xí)和AI算法設(shè)計的專用處理器,在運行神經(jīng)網(wǎng)絡(luò)算法時,NPU比GPU計算速度更快,功耗更低。但是NPU的缺點也很明顯,它的通用性較差,能處理的計算任務(wù)類型有限,在軟件生態(tài)上也相對封閉。
而GPU已經(jīng)發(fā)展了很多年,有更為完善的軟件生態(tài),特別是英偉達(dá)的CUDA架構(gòu),有非常豐富的應(yīng)用和第三方的工具支持,開發(fā)人員可以非常方便地使用C/C++語言在這個架構(gòu)上編寫程序,運行在英偉達(dá)支持CUDA的芯片上。一個有趣的現(xiàn)象是,英偉達(dá)作為AI時代的領(lǐng)軍者,在SOC中并沒有使用NPU的架構(gòu),而是使用GPU作為AI計算的核心,但是蘋果和高通的SOC設(shè)計中都加入了單獨的NPU模塊。
因為英偉達(dá)的GPU在性能上足夠強大,不需要單獨增加NPU模塊來。但是對于其他廠商來說,無法使用英偉達(dá)這樣性能強大的GPU內(nèi)核,因此單獨設(shè)計一個NPU模塊來處理AI算法則是更好的選擇。
ISP
ISP(Image Signal Processor),即圖像信號處理器,主要作用是對前端圖像傳感器輸出的信號做后期處理,主要功能有線性糾正、噪聲去除、壞點去除、內(nèi)插、白平衡、自動曝光控制等。ISP分為外置和內(nèi)置兩種,現(xiàn)在大部分自動駕駛芯片都將ISP集成到了SOC內(nèi)部,攝像頭的原始圖像經(jīng)過ISP處理后,輸入給感知算法。
一般會用像素處理能力來評價一個ISP的性能。例如OrinX內(nèi)置的ISP模塊處理像素的速度是1.85 Gpixel/s,pixel/s越高代表能處理的攝像頭像素越高,在不考慮圖像壓縮的情況下,3.2 Gpixel/s可以處理大約一億像素。
另一個非常重要但是容易被忽略的參數(shù)是位寬,它代表了每個像素包含的數(shù)據(jù)量,位寬越大單個像素里包含的數(shù)據(jù)量越大,可以表示的顏色也越多。例如位寬為8bit時,一個像素可以表示256種顏色,而24bit時則可以表示1600萬種顏色。
內(nèi)存帶寬
最后聊一下內(nèi)存帶寬,這是我們在討論智能駕駛芯片性能時經(jīng)常忽略的一個參數(shù)。神經(jīng)網(wǎng)絡(luò)算法的本質(zhì)是矩陣的乘積累加運算,這個過程中需要頻繁的讀取數(shù)據(jù),使用的算法模型參數(shù)越多,在內(nèi)存中需要保存的數(shù)據(jù)量越大。不論是智能駕駛還是人工智能,都在走向大模型的技術(shù)路線,對于存儲帶寬的要求也會越來越高。自動駕駛領(lǐng)域非?;馃岬?strong>Transformer模型,它的參數(shù)量在10億左右,而GPT-4的參數(shù)規(guī)模則超過1.5萬億。
我們在手機領(lǐng)域常見的內(nèi)存方案是LPDDR,這是一種用于移動端的低功耗內(nèi)存技術(shù),目前主流的自動駕駛芯片也是使用這個技術(shù),最新的標(biāo)準(zhǔn)是LPDDR5X,最高帶寬8533MT/s,這里的MT/s指的是每秒傳輸一百萬次,實際能傳輸?shù)臄?shù)據(jù)量還取決于位寬。除了LPDDR之外,還有兩種帶寬更高的技術(shù):GDDR和HBM。
HBM是一種使用了3D堆疊架構(gòu)和硅通孔技術(shù)的動態(tài)隨機存儲技術(shù),主要用于高性能計算和AI領(lǐng)域,目前已發(fā)展到HBM3。采用這個技術(shù)的英偉達(dá)H100 NVL顯卡,最大帶寬能達(dá)到7800GB/s。
但是HBM的缺點就是太貴,汽車領(lǐng)域無法承受這么高的成本。GDDR可以算是廉價版的HBM,主要用于顯卡領(lǐng)域,目前發(fā)展到GDDR6x,例如英偉達(dá)最新的RTX4090顯卡采用的就是GDDR6x,最大帶寬能達(dá)到1008GB/s。GDDR的成本雖然遠(yuǎn)低于HBM,但是也要達(dá)到LPDDR的3倍以上。在汽車行業(yè)有一家OEM就把GDDR技術(shù)用在了自動駕駛的芯片上,特斯拉最新的FSD二代芯片支持GDDR6,為了支持大模型特斯拉也是下了血本。
英偉達(dá)、特斯拉,大算力芯片的設(shè)計
在智能駕駛技術(shù)爆發(fā)之前,市場上的智駕芯片都是小算力,最高支持到L2的ADAS功能,最經(jīng)典的芯片是Mobileye的EyeQ系列。
從英偉達(dá)進入自動駕駛領(lǐng)域開始,智駕芯片進入大算力時代。英偉達(dá)的OrinX和特斯拉的FSD芯片分別代表了大算力智駕芯片的兩種設(shè)計思路:一個是在硬件上堆料來打破算力的天花板,大力出奇跡;另一個是算法和硬件深度融合,最大效率的利用芯片的性能。
OrinX
雖然英偉達(dá)已經(jīng)發(fā)布了最大算力超過1000 TOPs的Thor(邁向千T算力時代,最強智駕芯片Thor量產(chǎn)前夜),但是距離量產(chǎn)還有一段時間。目前已量產(chǎn)的智駕芯片中,紙面算力最大的還是OrinX,先來看一下它的架構(gòu)。
CPU部分采用了12核的ARM Cortex-A78AE,這是ARM專為車載和移動端設(shè)計的架構(gòu),算力為240 KDMIPS,同時基于Cortex-R52s提供了功能安全島。GPU部分使用的英偉達(dá)的Ampere架構(gòu),由2個圖形處理集群(GPC,Graphic Processing Cluster)組成,每個GPC有8個流處理器(SM,Streaming Multiprocessors),每個SM擁有128個CUDA核心和4個Tensor核心,OrinX總計擁有2048個CUDA核心和64個Tensor核心,在FP32精度下的GPU算力為5.2 TFLOPs。
OrinX沒有專門的NPU,但是提供了兩個加速器PVA和DLA,PVA是計算機視覺算法的加速器,DLA則是專門針對深度神經(jīng)網(wǎng)絡(luò)中卷積計算的加速器。通過GPU和DLA,OrinX在int8精度下最大可以提供254 TOPs的算力。ISP最大的像素處理能力是1.85 Gpixel/s,位寬沒有明確的數(shù)據(jù),可能是16 bit。內(nèi)存部分采用的是256 bit的LPDDR5,最高帶寬6400 MT/s,對應(yīng)的內(nèi)存帶寬是204.8 GB/s。
從架構(gòu)上看,OrinX的CPU性能中規(guī)中矩,但是GPU性能強大,依靠英偉達(dá)強大的技術(shù)實力,不需要額外的NPU模塊,直接通過CUDA和Tensor核來滿足AI算法的需求,加上英偉達(dá)成熟的工具鏈和生態(tài),不愧為市場上占有率最高的大算力智駕芯片。
FSD芯片
特斯拉最新的HW4.0已經(jīng)搭載了FSD二代芯片,但是沒有公開具體的參數(shù)。這里還是以第一代FSD芯片為例,來看看特斯拉自研芯片的思路,先上架構(gòu)圖。
CPU用的是ARM Coretex-A72,一共有12個核心,A72單核心的CPU算力為5.5 DMIPs/MHz,主頻是2.2 GHz,12個核心的總算力大約為146 KDMIPs。
GPU部分使用的是ARM Mali-G71,算力只有600 GFLOPs,但GPU不是FSD芯片主要的計算核心,影響不大。
FSD芯片最核心的部分是NPU,每個芯片上有兩個NPU,專為神經(jīng)網(wǎng)絡(luò)計算中的MAC設(shè)計,每個NPU在int8精度下的最大算力為36 TOPs,單顆FSD芯片的最大算力為72 TOPs。
從數(shù)字上看并不是很大,與OrinX單顆254 TOPs看起來有差距,但是OrinX的這個數(shù)字是稀疏算力,而且是把CUDA和Tensor核心加在一起的綜合算力,實際上參與MAC計算的主要是Tensor核心,它的稠密算力只有54 TOPs。這也是為什么第一代FSD芯片雖然算力數(shù)字不大,但是Transformer和端到端大模型依然能夠跑起來的原因。從FSD芯片的設(shè)計可以看到自研的好處,專為神經(jīng)網(wǎng)絡(luò)算法而設(shè)計的NPU模塊,能夠最大限度的發(fā)揮芯片的性能,能效比拉滿。
地平線J6P
最后來看看國內(nèi)的后起之秀——地平線。作為中國智駕芯片的一哥,地平線進步的速度也非??臁W钚碌恼鞒?系列芯片包含了從低階到高階的多款產(chǎn)品,其中的旗艦產(chǎn)品J6P的算力更是達(dá)到了560 TOPs。雖然地平線沒有公布詳細(xì)的架構(gòu),但是從一些數(shù)據(jù)可以看出這顆芯片擁有非常強大的性能。
CPU采用的是18核心的ARM Cortex-A78E,算力超過400DMIPs,接近OrinX的兩倍。GPU算力不高,只有200GFLOPs;同時內(nèi)置功能安全島,大概率使用的是ARM Cortex-R52內(nèi)核,實現(xiàn)ASIL-D等級。NPU部分使用的是地平線自研的BPU架構(gòu),目前已經(jīng)發(fā)展到了第三代,地平線命名為納什。這一代BPU最大的特點是針對Transformer、BEV等算法做了針對性的優(yōu)化,同時在架構(gòu)上使用了三級存儲架構(gòu),可以降低大規(guī)模參數(shù)下帶寬的瓶頸問題,加上浮點向量加速單元和數(shù)據(jù)變換引擎等技術(shù),J6P在int8精度下的最大算力達(dá)到了560 TOPs。
存儲方面使用了LPDDR5,最高帶寬205GB/s,和OrinX保持一致。J6P的晶體管數(shù)量達(dá)到了370億,相比之下英偉達(dá)OrinX是170億,而FSD芯片只有60億。強大的CPU和NPU算力,加上對神經(jīng)網(wǎng)絡(luò)算法的特殊優(yōu)化,J6一發(fā)布就獲得了極大的關(guān)注,國內(nèi)主流的OEM都官宣將基于J6開發(fā)新一代自動駕駛域控,J6的最終表現(xiàn)讓人期待。
誰是自研最強芯片?
在去年的NIO DAY上,蔚來就率先公布了自研芯片神璣NX9031,并于今年7月份流片成功,隨后小鵬也在8月份宣布自研芯片圖靈流片成功,兩家都走的是大算力路線。下面就從已知的參數(shù)上,來看看誰才是自研的最強芯片。蔚來神璣NX9031發(fā)布會上斌哥稱這是全球第一顆5nm的智駕芯片,可見蔚來是下了血本。現(xiàn)在有能力代工5nm芯片的只有臺積電和三星,而且資源緊張,代工費不菲。晶體管數(shù)量超過500億,是OrinX的兩倍以上,加上5nm的先進制程,芯片的性能表現(xiàn)令人期待。
CPU部分采用的大小核設(shè)計,總共是32個核心,這里面包含三種核心,大核是ARM Cortex-A78AE,小核是A65AE,內(nèi)部集成了功能安全島,使用的是R52??偟腃PU算力達(dá)到了615K DMIPs。
GPU沒有公開數(shù)據(jù),發(fā)布會上也沒有做介紹,有可能是沒有單獨的GPU模塊,把圖形渲染的部分都交給座艙來完成。內(nèi)存使用的是LPDDR5x,這是2021年最新的DDR標(biāo)準(zhǔn),最高帶寬8533Mbps,位寬按照256bit來計算的話,帶寬可以達(dá)到273GB/s。NPU沒有公布具體的架構(gòu),預(yù)計有2個核心。
蔚來特別強調(diào)了對算法的優(yōu)化,Transformer類算法性能有6.5倍的提升,Lidar類算法性能有4倍的提升,BEV算法性能4.3倍提升,但是蔚來沒有提是和哪個芯片相比,大概率是以當(dāng)前OrinX的平臺性能為參考。蔚來沒有公布具體的算力,但是發(fā)布會上斌哥說一顆神璣的性能相當(dāng)于四顆OrinX,有些人就認(rèn)為算力能超過1000 TOPs,這個顯然是錯誤的。兩個芯片并聯(lián)的算力并不能直接相加,因為會受到帶寬的限制。
Orin模組之間是通過以太網(wǎng)連接,4個OrinX并聯(lián)最多也就能增加20%的算力,所以當(dāng)前蔚來平臺的最大算力在300 TOPs左右。如果按照這個數(shù)字來看,斌哥所說的一顆頂四顆就可以理解了,估計神璣的實際算力在500 TOPs左右。發(fā)布會上斌哥特別強調(diào)了ISP的性能,位寬26bit,像素處理能力達(dá)到了6.5Gpixel/s,前面介紹ISP參數(shù)的時候提到過,位寬24bit代表一個像素可以表示1600萬種顏色,26bit則是6700萬種顏色。
作為對比OrinX則是16bit左右,而像素處理能力OrinX也只有1.85Gpixel/s,可以說神璣的ISP性能是非常強大,從發(fā)布會演示的視頻來看,在畫面細(xì)節(jié)和暗光表現(xiàn)上都有巨大的提升。但是有個小問題是發(fā)布會上展示的圖像是給人眼觀看的,并不是實際輸入給算法的色彩格式,神璣這顆強大的ISP對算法的實際提升還需要時間驗證。
從這些性能參數(shù)可以看出蔚來自研芯片的思路,不惜成本采用了5nm的工藝,換來的是斷層領(lǐng)先的CPU和ISP性能,加上專為算法設(shè)計的NPU架構(gòu),最終可以實現(xiàn)1顆頂4顆OrinX的表現(xiàn)。可以說在Thor正式上車之前,神璣NX9031就是當(dāng)下最強的智駕芯片,第一次設(shè)計芯片就能達(dá)到這樣的水平,讓人嘆服。
蔚來宣布自研芯片流片成功的一個月后,小鵬也正式公布了自己的自研芯片——圖靈,一顆專為AI大模型定制的芯片,能用于智能駕駛、飛行汽車和智能機器人等多個領(lǐng)域。小鵬沒有公布非常詳細(xì)的參數(shù),我們可以從已知的幾個數(shù)據(jù)上大概推測出它的性能表現(xiàn)。
小鵬公布了總的核心數(shù)是40個,這其中包含了CPU和功能安全島,考慮到這顆芯片還要用于其它場景,需要考慮芯片的通用性,因此大概率是包含了GPU模塊的。CPU大核預(yù)計采用的是ARM Cortex-A78AE,核心數(shù)量在24個左右,會有2-4個Cortex-R52作為功能安全島,整體CPU算力會在500 kDMIPs左右。GPU部分可能使用的是ARM MALI-G78AE,核心數(shù)量在12個左右,預(yù)計GPU算力在1000 GFLOPs左右。NPU部分有2個核心。
小鵬在發(fā)布會上介紹圖靈芯片在本地最高可運行300億個參數(shù)的大模型,結(jié)合小鵬未來的智駕路線,可以看出這顆芯片的NPU是專為端到端大模型而設(shè)計的。雖然沒有公布具體的算力,但是何小鵬在發(fā)布會上也提到1顆圖靈芯片相當(dāng)于3顆OrinX芯片的算力,預(yù)計它的算力也能達(dá)到400 TOPs左右。
ISP部分比較特別,有2個獨立的ISP核心,一個負(fù)責(zé)AI算法的圖像處理,另一個負(fù)責(zé)圖像的合成,可能是考慮到其它應(yīng)用場景里不一定有汽車座艙芯片那樣強大的ISP模塊,所以單獨增加一個圖像處理的ISP核心,可以大大的提高芯片的通用性。
小鵬沒有公布具體的制程,但是提到了這顆芯片性價比非常高,因此大概率還是采用7nm的制程。從這些參數(shù)上可以看出小鵬在自研芯片的設(shè)計路線上與蔚來有很大的不同。
首先是性能和價格的取舍,小鵬沒有追求高制程,而是采用性價比較高的7nm,而蔚來為了追求性能,不惜成本也要采用5nm制程;其次是為大模型而定制的NPU模塊,從這里也能看出蔚來和小鵬在智駕路線上的不同。蔚來的智駕路線里激光雷達(dá)還是重要的部分,因此神璣芯片對Lidar的算法做了特殊的優(yōu)化,而小鵬則是走純視覺路線,押注端到端大模型。
最后一點是非常高的通用性,圖靈芯片集成了GPU模塊和2個ISP核心,能應(yīng)用于多個類型的產(chǎn)品,是小鵬AI版圖中非常重要的一部分。而蔚來的神璣芯片則專為智駕而設(shè)計,舍棄了GPU模塊,把芯片上的空間留給了其它模塊。
從理論性能上來說蔚來的神璣無疑是當(dāng)下自研的最強芯片,但是自研芯片是為算法而定制的,性能強大并不代表全部,最終還是要看系統(tǒng)的實際表現(xiàn)。明年Q1上市的蔚來ET9將會搭載2顆神璣NX9031,小鵬的圖靈芯片也將于明年上車,地平線與J6P深度軟硬結(jié)合的智駕方案SuperDrive預(yù)計明年Q3量產(chǎn)。
還有傳聞中的理想、比亞迪、Momenta,自研芯片和軟硬一體將是智駕行業(yè)的下一個趨勢,明年各個頭部大廠在智駕上的表現(xiàn)讓人期待。