加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 小米汽車SurroundSDF的網(wǎng)絡(luò)架構(gòu)
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

小米自動(dòng)駕駛算法分析,能打幾分?

04/15 16:10
3472
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

小米汽車未公布小米自動(dòng)駕駛算法的詳細(xì)信息,不過(guò)通過(guò)小米汽車發(fā)布的學(xué)術(shù)論文可以一窺小米自動(dòng)駕駛算法。目前,小米汽車的學(xué)術(shù)論文主要有兩篇,一篇是《SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection》,作者有新加坡國(guó)立大學(xué)的,小米汽車僅有兩人。另一篇是《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》,署名作者有8位,其中六位是小米汽車的,還有兩位是西安交通大學(xué)軟件工程學(xué)院的,這兩位當(dāng)中還有一位是后來(lái)加盟小米汽車的。兩篇論文的核心都是Occupancy占用網(wǎng)絡(luò),這一點(diǎn)雷軍在小米汽車發(fā)布會(huì)上也有所提及。

這兩篇論文前一篇側(cè)重于3D感知,后一篇側(cè)重于3D場(chǎng)景重建,3D感知的論文都不免要在nuScenes測(cè)試數(shù)據(jù)集上打榜。艱深晦澀的論文大多數(shù)人都沒(méi)興趣讀完,所以我們先看小米這兩篇算法論文的得分。

NDS得分58.1,這個(gè)得分應(yīng)該說(shuō)很低,華為在2021年10月的TransFusion得分都有71.7,零跑汽車的EA-LSS得分有77.6。不過(guò)后兩者基本都是Bounding-Box的,而不是基于占用網(wǎng)絡(luò)的,這樣對(duì)比有一點(diǎn)不公平。

與另一個(gè)頂級(jí)占用網(wǎng)絡(luò)結(jié)構(gòu)TPVFormer比,基本相差不大,TPVFormer是北航提出來(lái)的。

《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》這篇論文算法的得分,在一眾占用網(wǎng)絡(luò)模式里mIoU得分第一。mIoU (Mean Intersection over Union,均交并比):為語(yǔ)義分割的標(biāo)準(zhǔn)度量。其計(jì)算兩個(gè)集合的交并比,這兩個(gè)集合為真實(shí)值(ground truth)和預(yù)測(cè)值(predicted segmentation)。計(jì)算公式如下:i表示真實(shí)值,j表示預(yù)測(cè)值:

圖片來(lái)源:《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》論文

3D場(chǎng)景重建的得分,基本上也可以算是第一。

下面來(lái)具體看這兩篇論文。

SOGDet就是將3D感知與3D語(yǔ)義分割占用網(wǎng)絡(luò)預(yù)測(cè)結(jié)合,主要是提高非道路環(huán)境的感知,構(gòu)建一個(gè)完整的真實(shí)3D場(chǎng)景,使得自動(dòng)駕駛決策系統(tǒng)更好地理解周邊環(huán)境,給出正確的道路規(guī)劃,非道路環(huán)境包括了植被(綠化帶、草地等等)、人行道、地形以及人工建筑。

小米SOGDet的網(wǎng)絡(luò)架構(gòu),并無(wú)獨(dú)特之處,畢竟網(wǎng)絡(luò)基礎(chǔ)都是谷歌和META構(gòu)建的。目前頂級(jí)自動(dòng)駕駛網(wǎng)絡(luò)基本都是三部分,其中骨干Backbone部分,還是基于CNN,沒(méi)辦法,Transofrmer運(yùn)算量太大,無(wú)法使用,大家基本還是用ResNet50/100。也有少數(shù)使用谷歌的ViT,但實(shí)際無(wú)法落地。多頭部分使用View Transformer做BEV變換。這里仍然使用英偉達(dá)提出的經(jīng)典的LSS方法,其中:

    • Lift——對(duì)各相機(jī)的圖像顯性地估計(jì)像平面下采樣后特征點(diǎn)的深度分布,得到包含圖像特征的視錐(點(diǎn)云);

Splat——結(jié)合相機(jī)內(nèi)外參把所有相機(jī)的視錐(點(diǎn)云)分配到BEV網(wǎng)格中,對(duì)每個(gè)柵格中的多個(gè)視錐點(diǎn)進(jìn)行sum-pooling計(jì)算,形成BEV特征圖;

Shoot——用task head處理BEV特征圖,輸出感知結(jié)果。LSS是2020年提出的,目前還做了不少改進(jìn),主要是深度修正(Depth Correction)和具有相機(jī)感知能力的深度估計(jì)(Camera-aware Depth Prediction)。

另外,還提出了高效體素池化(Efficient Voxel Pooling)來(lái)加速BEVDepth方法,以及多幀融合(Multi-frame Fusion)來(lái)提高目標(biāo)檢測(cè)效果和運(yùn)動(dòng)速度估計(jì)。任務(wù)級(jí)用反卷積和MLP輸出語(yǔ)義分割網(wǎng)絡(luò)占用或目標(biāo)檢測(cè)Bounding Box。

再來(lái)看小米汽車成份更高的那篇論文即《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》,這篇論文主要就是3D語(yǔ)義分割占用網(wǎng)絡(luò),因此主要指標(biāo)就是mIoU。

小米汽車SurroundSDF的網(wǎng)絡(luò)架構(gòu)

簡(jiǎn)單解釋一下SDF,有符號(hào)距離場(chǎng)(SDF:Signed Distance Field) 是距離場(chǎng)的一種變體,它在 3D(2D) 空間中將位置映射到其到最近平面(邊緣)的距離。距離場(chǎng)在圖像處理、物理學(xué)和計(jì)算機(jī)圖形學(xué)等許多研究中都有應(yīng)用。在計(jì)算機(jī)圖形的上下文中,距離場(chǎng)通常是有符號(hào)的,表示某個(gè)位置是否在網(wǎng)格內(nèi)。無(wú)論2D或者3D圖形都有隱式(implicit)和顯式(explicit)兩種存儲(chǔ)方式,比如3D模型就可以用mesh直接存儲(chǔ)模型數(shù)據(jù),也可以用SDF、點(diǎn)云(point cloud)、神經(jīng)網(wǎng)絡(luò)(neural rendering)來(lái)表示,2D資產(chǎn)(這里指貼圖)亦是如此。比如貼圖一般直接使用RGB、HSV等參數(shù)來(lái)進(jìn)行表示,但這樣子再放大圖片后會(huì)出現(xiàn)鋸齒,所以想要獲取高清的圖像就需要較大的存儲(chǔ)空間,這時(shí)候就需要矢量表示,SDF就是為了這種需求產(chǎn)生的,也就是雷軍所說(shuō)的超高分辨率矢量。這個(gè)技術(shù)是用在手機(jī)游戲中的,最典型的就是手機(jī)游戲第一名《原神》,面部陰影就是用SDF做的。

小米汽車SurroundSDF的網(wǎng)絡(luò)架構(gòu)和上一篇論文只有最后輸出頭有區(qū)別,骨干網(wǎng)、LSS和Voxel都是完全一致的。

SurroundSDF旨在解決自動(dòng)駕駛系統(tǒng)中基于視覺(jué)的3D場(chǎng)景理解的挑戰(zhàn)。具體來(lái)說(shuō),它試圖解決以下問(wèn)題:連續(xù)性和準(zhǔn)確性:現(xiàn)有的無(wú)對(duì)象(object-free)方法在預(yù)測(cè)離散體素網(wǎng)格的語(yǔ)義時(shí),未能構(gòu)建連續(xù)且準(zhǔn)確的障礙物表面。SurroundSDF通過(guò)隱式預(yù)測(cè)有符號(hào)距離場(chǎng)(Signed Distance Field, SDF)和語(yǔ)義場(chǎng),來(lái)實(shí)現(xiàn)從環(huán)繞圖像連續(xù)感知3D場(chǎng)景。

缺乏精確的SDF真實(shí)值(ground truth):由于獲取精確的SDF真實(shí)值是困難的,論文提出了一種新的弱監(jiān)督范式,稱為Sandwich Eikonal formulation,通過(guò)在表面兩側(cè)施加正確和密集的約束來(lái)提高表面的感知精度。Eikonal方程是在處理波傳播問(wèn)題時(shí)需要求解的一類非線性偏微分方程。這里科普一下:Eikonal方程可以求出地震波從源點(diǎn)到空間任意一點(diǎn)的傳播時(shí)間,從而描述波在介質(zhì)中的傳播時(shí)間場(chǎng);快速求解Eikonal方程對(duì)于加速重建地震波傳播時(shí)間場(chǎng)從而減少地震災(zāi)害對(duì)社會(huì)財(cái)產(chǎn)的損失具有重要意義。在圖像處理領(lǐng)域,Eikonal方程被用于計(jì)算多個(gè)點(diǎn)的距離場(chǎng)、圖像去噪,提取離散和參數(shù)化表面上的最短路徑。

3D語(yǔ)義分割和連續(xù)3D幾何重建:SurroundSDF旨在在一個(gè)框架內(nèi)同時(shí)解決3D語(yǔ)義分割和連續(xù)3D幾何重建的問(wèn)題,利用SDF的強(qiáng)大表示能力。

長(zhǎng)尾問(wèn)題和3D場(chǎng)景的粗糙描述:盡管3D目標(biāo)檢測(cè)算法取得了進(jìn)展,但長(zhǎng)尾問(wèn)題和3D場(chǎng)景的粗糙描述仍然是挑戰(zhàn),需要更深入地理解3D幾何和語(yǔ)義。

特斯拉AI Day上也提出了“隱式神經(jīng)表示“ (Implicit Neural Representation,INR)。以圖像為例,其最常見(jiàn)的表示方式為二維空間上的離散像素點(diǎn)。但在真實(shí)世界中,我們看到的世界可以認(rèn)為是連續(xù)的,或者近似連續(xù)。于是,可以考慮使用一個(gè)連續(xù)函數(shù)來(lái)表示圖像的真實(shí)狀態(tài),然而我們無(wú)從得知這個(gè)連續(xù)函數(shù)的準(zhǔn)確形式,因此有人提出用神經(jīng)網(wǎng)絡(luò)來(lái)逼近這個(gè)連續(xù)函數(shù),這就是INR,在3D圖像、視頻、Voxel重建中,INR函數(shù)將二維坐標(biāo)映射到RGB值。對(duì)于視頻,INR函數(shù)將時(shí)刻t以及圖像二維坐標(biāo)XY映射到RGB值。對(duì)于一個(gè)三維形狀,INR函數(shù)將三維坐標(biāo)XYZ映射到0或1,表示空間中的某一位置處于物體內(nèi)部還是外部。INR是一個(gè)連續(xù)的函數(shù),函數(shù)(網(wǎng)絡(luò))的復(fù)雜程度和信號(hào)的復(fù)雜程度成正比,但與信號(hào)的分辨率無(wú)關(guān)。比如一個(gè)16*16的圖像,和一個(gè)32*32的圖像,如果內(nèi)容一樣,那么INR就會(huì)一樣。也就是再低的分辨率也可以連續(xù)擴(kuò)展高分辨率的效果。

SurroundSDF使用有符號(hào)距離函數(shù)(SDF)來(lái)隱式地表示3D場(chǎng)景,這允許連續(xù)地描述3D場(chǎng)景并通過(guò)重建平滑表面來(lái)表達(dá)場(chǎng)景的幾何結(jié)構(gòu)。利用SDF約束通過(guò)Eikonal公式來(lái)準(zhǔn)確描述障礙物的表面。這種方法可以準(zhǔn)確地從環(huán)繞圖像中感知連續(xù)的3D場(chǎng)景。為了減少幾何優(yōu)化和語(yǔ)義優(yōu)化之間的不一致性,論文設(shè)計(jì)了一種聯(lián)合監(jiān)督策略。該策略使用SoftMax函數(shù)將每個(gè)體素網(wǎng)格的最小SDF值轉(zhuǎn)換為自由概率,并將其與語(yǔ)義logits結(jié)合,通過(guò)Dice損失進(jìn)行聯(lián)合優(yōu)化。

自動(dòng)駕駛算法的基礎(chǔ)部分基本上都被谷歌和META定型了,即骨干2D CNN網(wǎng)絡(luò)加FPN,中間Transformer變換,最后任務(wù)級(jí)MLP或隱式表達(dá)。包括特斯拉在內(nèi)都跳不出這個(gè)框架,沒(méi)有人的算法水平會(huì)特別好,大家基本都在一個(gè)水平上,比拼的不是數(shù)據(jù),而是投入的人力,足夠的人力才能做反復(fù)的實(shí)驗(yàn)微調(diào),才能略略勝出一點(diǎn),能做徹底改變的只有谷歌或META抑或是微軟。

免責(zé)說(shuō)明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng),不具有任何指導(dǎo)、投資和決策意見(jiàn)。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
NE555DRG4 1 Texas Instruments Single Precision Timer 8-SOIC 0 to 70

ECAD模型

下載ECAD模型
$0.39 查看
FNB33060T 1 onsemi Intelligent Power Module, 600 V, 30A, 60-TUBE

ECAD模型

下載ECAD模型
$18.57 查看
ADF4106BRUZ-R7 1 Analog Devices Inc 6 GHz integer-N PLL

ECAD模型

下載ECAD模型
$4.12 查看
小米

小米

小米是全球第四大智能手機(jī)制造商,在30余個(gè)國(guó)家和地區(qū)的手機(jī)市場(chǎng)進(jìn)入了前五名,特別是在印度,連續(xù)5個(gè)季度保持手機(jī)出貨量第一。通過(guò)獨(dú)特的“生態(tài)鏈模式”,小米投資、帶動(dòng)了更多志同道合的創(chuàng)業(yè)者,同時(shí)建成了連接超過(guò)1.3億臺(tái)智能設(shè)備的IoT平臺(tái)。

小米是全球第四大智能手機(jī)制造商,在30余個(gè)國(guó)家和地區(qū)的手機(jī)市場(chǎng)進(jìn)入了前五名,特別是在印度,連續(xù)5個(gè)季度保持手機(jī)出貨量第一。通過(guò)獨(dú)特的“生態(tài)鏈模式”,小米投資、帶動(dòng)了更多志同道合的創(chuàng)業(yè)者,同時(shí)建成了連接超過(guò)1.3億臺(tái)智能設(shè)備的IoT平臺(tái)。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

佐思汽車研究:致力于汽車、TMT、新能源(特別是新能源汽車、智能汽車、車聯(lián)網(wǎng))領(lǐng)域的產(chǎn)業(yè)研究、專項(xiàng)調(diào)研、戰(zhàn)略規(guī)劃和投資咨詢服務(wù)。