百度在2022年6月發(fā)布了蘿卜快跑無人出租車RT6,隨著近期在武漢大規(guī)模投放RT6,無人出租車讓百度揚眉吐氣,徹底壓倒了Waymo,而特斯拉的Robotaxi據(jù)傳推遲到10月,這也導(dǎo)致特斯拉股價大跌,再次彰顯百度的強大。
RT6內(nèi)部沒有方向盤,也就是說它是L4級的,沒考慮人工接手。??RT6在云端有一層保障,百度Apollo稱之為“平行駕駛”,即在遠(yuǎn)程駕艙重建車輛行駛環(huán)境,讓云端安全員也能像在實車上一樣了解車輛的駕駛情況和環(huán)境狀況,并在介入時將控車指令實時發(fā)送到車端,實現(xiàn)遠(yuǎn)程實時控車的能力。
根據(jù)http://www.evinchina.com/newsshow-2145.html的介紹,RT6的算力是1200TOPS,并且是雙計算單元,那么會用的是什么計算芯片呢?百度沒有公布,我們可以大膽猜測。很有可能是百度自己的芯片,即昆侖芯2。
百度的昆侖芯在2021年正式分拆,同時在2021年8月正式量產(chǎn)昆侖芯二代。順便說一句,比亞迪也投資了昆侖芯公司。
昆侖芯2的內(nèi)部框架圖
昆侖芯2的內(nèi)部框架圖,這是一個非常奇怪的設(shè)計,實際就是一個CPU加NPU的設(shè)計,這里面的SDNN就是軟件定義的神經(jīng)網(wǎng)絡(luò)引擎,是自研核心張量計算單元,加速卷積和矩陣乘法的計算即NPU。Cluster主要負(fù)責(zé)除了卷積和矩陣乘法之外的通用計算部分,應(yīng)該是標(biāo)量計算部分,即CPU。XPU-R主要包含有8個Cluster單元和6個SDNN單元。Cluster單元主要承擔(dān)通用計算任務(wù),支持SIMD指令,提供通用和靈活的編程能力。SDNN主要承擔(dān)MAC類計算和EW類計算,提供 128 TFLOPS@ FP16的算力。昆侖芯2代是國內(nèi)首款應(yīng)用GDDR6的AI芯片。跟主機的接口這塊,集成了PCIe4.0協(xié)議。同時也具備片間互聯(lián)能力,多個芯片之間能夠互聯(lián)通信去支持訓(xùn)練和大規(guī)模推理的應(yīng)用場景,也就是K-LINK,近似于英偉達(dá)的NV-LINK,片間互聯(lián)帶寬是200GB/s,英偉達(dá)在2017年的NV-LINK就做到300GB/s了。
根據(jù)https://baidu-kunlun-public.su.bcebos.com/paddle_lite/R200%20%E4%BA%A7%E5%93%81%E6%89%8B%E5%86%8C%E5%A4%96%E9%83%A8%E7%89%88_0923.pdf,也就是百度的官方介紹。
INT8算力是256TOPS,如果是雙運算平臺,那么至少需6片,這樣就是1500TOPS。
也就是說需要6片昆侖芯2,百度有R480-X8 UBB被動基板,可以連接8片昆侖芯2。此外還需要一個強大的CPU做主機,至少英特爾9代以上的i7做CPU。
如果是昆侖芯2代的話,百度采購的價格肯定可以壓得很低,再加上CPU主機,估計價格在2-3萬人民幣左右。6張加速卡有1500TOPS算力,百度謙虛地只寫了1200TOPS。一張昆侖芯2的加速卡功耗是150瓦,6張是900瓦,加上主機,功耗至少是1100瓦。
除了昆侖芯2,大家可能還有其他猜測,首先會不會是英偉達(dá)的Orin?國內(nèi)用的基本都是Orin-X,稀疏算力254TOPS@INT8,存儲帶寬是204.8GB/s,昆侖芯2是512GB/s,Orin性能與昆侖芯2比有明顯差距。如果是雙系統(tǒng),還要超過1200TOPS,同樣需要6顆。但Orin不具備片間連接能力,只能靠帶寬很低的以太網(wǎng)或PCIe,即便6顆,實際算力也不會超過400TOPS,并且每片Orin價格大約3000-3500人民幣,6片價格近2萬元,Orin也不具備多片并聯(lián)基板,還需要再開發(fā)嵌入式計算平臺,開發(fā)周期和成本遠(yuǎn)超昆侖芯2,用Orin的概率為零。
其次會不會是英偉達(dá)的A100?A100單片算力就有1248TOPS@INT8,體積和功耗比6片昆侖芯2要小很多,但A100價格要3萬美元,國內(nèi)還不好買到,顯然不會用A100。
百度宣稱的1200TOPS算力并未標(biāo)明是INT8還是INT4,如果是INT4,那么英偉達(dá)2021年初發(fā)表的A40倒是很合適。
A40參數(shù)
A40的INT4算力是1197TOPS,基本就是1200TOPS,采用了48GB的GDDR6,沒有用價格高昂的HBM,這就保證其價格不會太高,帶寬有696GB/s。功耗只有300瓦,還有3個DP顯示接口。目前A40價格大概4萬人民幣,比較容易買的到。
還有RTX4090也比較合適,單片INT8算力有1321TOPS,存儲是24GB的GDDR6,帶寬1008GB/s,價格只要1.2萬人民幣左右,性價比極高。
還有明年即將量產(chǎn)的英偉達(dá)的Thor-Super-X也很合適,算力高達(dá)2000TOPS@INT8。
當(dāng)然昆侖芯在2024年下半年即將量產(chǎn)第三代昆侖芯芯片,目前參數(shù)還不得而知,大概率算力達(dá)到1000TOPS@INT8以上,應(yīng)該還是三星代工,5納米工藝。
免責(zé)說明:本文觀點和數(shù)據(jù)僅供參考,和實際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點、數(shù)據(jù)僅代表筆者立場,不具有任何指導(dǎo)、投資和決策意見。