華為最新的論文《VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving》,10位作者中有5位來(lái)自華為諾亞方舟實(shí)驗(yàn)室,其余基本都是香港中文大學(xué),且這其中還有3個(gè)人是在華為諾亞方舟實(shí)驗(yàn)室實(shí)習(xí),可以說(shuō)有8個(gè)人來(lái)自華為諾亞方舟實(shí)驗(yàn)室。VisionPAD提出了一種比較新穎的預(yù)訓(xùn)練方法來(lái)提升OCC性能,將OCC性能關(guān)鍵指標(biāo)mIoU推高到45%,達(dá)到業(yè)內(nèi)第一,學(xué)術(shù)界一般研究超前課題,但華為依然研究BEV+OCC,顯示出傳統(tǒng)算法還有很強(qiáng)的生命力。
BEV+3D語(yǔ)義分割柵格占有法是目前性能最強(qiáng)的感知算法,柵格占有法一般縮寫成OCC。雖然模塊式端到端沒(méi)有顯性輸出,但論到感知性能,傳統(tǒng)算法是可以碾壓端到端的,而端到端在決策規(guī)劃、軌跡預(yù)測(cè)方面比傳統(tǒng)算法潛力要深很多。
近年來(lái)主要的3D OCC研究論文薈萃(截至2024年6月)
3D OCC主要缺陷是數(shù)據(jù)集成本過(guò)高,絕大部分3D OCC算法都是使用強(qiáng)監(jiān)督數(shù)據(jù)集,而3D OCC的數(shù)據(jù)集打造成本高昂,基本上無(wú)法使用機(jī)器標(biāo)注,只能人工標(biāo)注,費(fèi)時(shí)費(fèi)力費(fèi)錢傳統(tǒng)算法就是如此,而全局型端到端最大的優(yōu)點(diǎn)就是可以使用完全非監(jiān)督(自監(jiān)督)數(shù)據(jù),即數(shù)據(jù)集成本可以是零,而使用多模態(tài)大模型做全局型端到端更是大幅度節(jié)約成本,基本不需要算法工程師了,自動(dòng)駕駛團(tuán)隊(duì)裁員95%都能正常運(yùn)轉(zhuǎn)。
Self-Supervised Learning(自監(jiān)督學(xué)習(xí))是一種無(wú)監(jiān)督表示學(xué)習(xí)方法,其核心在于通過(guò)設(shè)計(jì)輔助任務(wù)(也稱為“預(yù)訓(xùn)練任務(wù)”或“前置任務(wù)”)來(lái)挖掘數(shù)據(jù)自身的表征特征作為監(jiān)督信號(hào),從而提升模型的特征提取能力。為了自監(jiān)督Self-Supervised Learning,業(yè)內(nèi)有兩條思路,一是對(duì)比學(xué)習(xí),具體可以看論文《BEVContrast: Self-Supervision in BEV Space for Automotive Lidar Point Clouds》作者基本都來(lái)自寶馬自動(dòng)駕駛主要供應(yīng)商法雷奧。二是MAE(Masked Autoencoders,即掩碼自編碼器)是一種在計(jì)算機(jī)視覺(jué)領(lǐng)域廣泛應(yīng)用的自監(jiān)督學(xué)習(xí)方法。MAE通過(guò)在輸入的圖像或文本中隨機(jī)遮蓋部分?jǐn)?shù)據(jù)(如圖像中的patches或文本中的單詞),然后讓模型去預(yù)測(cè)被遮蓋的部分,并將預(yù)測(cè)結(jié)果與真實(shí)的部分進(jìn)行比較,計(jì)算誤差作為損失。這種方法使模型能夠直接重構(gòu)被遮蓋的數(shù)據(jù),從而實(shí)現(xiàn)自監(jiān)督學(xué)習(xí)。
對(duì)比學(xué)習(xí)和MAE這兩種粗略coarse監(jiān)督,無(wú)法捕捉到3D幾何信息、語(yǔ)義信息和基于時(shí)間序列的動(dòng)態(tài)元素,浙江大學(xué)提出了《UniPAD: A Universal Pre-training Paradigm for Autonomous Driving》,上海AI實(shí)驗(yàn)室提出了《Visual Point Cloud Forecasting enables Scalable Autonomous Driving》即ViDAR。UniPAD從體素特征重建多視角深度地圖和圖像來(lái)實(shí)現(xiàn)預(yù)訓(xùn)練,使用可微分函數(shù)體渲染(體渲染是一種基于逆光線傳輸方程的3D重建方法)重建一個(gè)完整的幾何表示。ViDAR則是將transformer預(yù)測(cè)的下一幀和未來(lái)Lidar幀監(jiān)督渲染的深度圖結(jié)合。這兩種方法都嚴(yán)重依賴Lidar深度信息的強(qiáng)監(jiān)督來(lái)學(xué)習(xí)3D幾何信息,而目前自動(dòng)駕駛領(lǐng)域是以攝像頭為核心,特別是BEV領(lǐng)域。順便說(shuō)一句,純激光雷達(dá)感知性能遠(yuǎn)比純視覺(jué)要好,兩者融合,性能只有非常輕微的提升,幾乎可以忽略不計(jì)。
華為在UniPAD上加以改進(jìn),下圖是兩者的對(duì)比
UniPAD vs. VisionPAD
華為不使用激光雷達(dá)友好的體渲染方程,改用基于錨點(diǎn)的3D Gaussian Splatting(簡(jiǎn)寫為3D GS)技術(shù),其實(shí)3D GS(https://github.com/graphdeco-inria/gaussian-splatting)和MVS,SFM,NeRF這類體渲染技術(shù)類似,不過(guò)在高分辨率圖片上由于需要使用強(qiáng)監(jiān)督神經(jīng)網(wǎng)絡(luò),導(dǎo)致訓(xùn)練和渲染都需要十分昂貴的代價(jià)。3D 高斯?jié)姙R的核心是一種光柵化技術(shù),類似于計(jì)算機(jī)圖形學(xué)中的三角形光柵化,它可以實(shí)時(shí)渲染。首先,將多個(gè)視點(diǎn)的圖像轉(zhuǎn)換為點(diǎn)云,然后將點(diǎn)云轉(zhuǎn)換為帶參數(shù)的高斯分布,最后使用機(jī)器學(xué)習(xí)來(lái)學(xué)習(xí)參數(shù)。它允許實(shí)時(shí)渲染從小圖像樣本中學(xué)習(xí)到的逼真場(chǎng)景。最近風(fēng)頭很盛,大有超過(guò)NeRF的態(tài)勢(shì)。
此外為了只從圖像中學(xué)習(xí)運(yùn)動(dòng)線索,移動(dòng)線索(motion cues)由像素位移和背景位移的差值來(lái)定義。華為提出一種自監(jiān)督體素速度估計(jì)算法。華為使用一個(gè)輔助神經(jīng)網(wǎng)絡(luò)任務(wù)頭和基于時(shí)間戳的近似體素流來(lái)預(yù)測(cè)每個(gè)體素的速度。隨后,華為封裝(wrap)當(dāng)前幀的體素到相鄰幀,并用相應(yīng)的圖像監(jiān)督 3D-GS 重建。這種速度預(yù)測(cè)使模型能夠解耦動(dòng)態(tài)和靜態(tài)體素,便于下游任務(wù)中的運(yùn)動(dòng)感知。此外,華為采用多幀光度一致性損失函數(shù)進(jìn)行三維幾何預(yù)訓(xùn)練,這是一種自監(jiān)督學(xué)習(xí)獲得深度估計(jì)值的方法,具體可以看論文《Digging Into Self-Supervised Monocular Depth Estimation》,這是2018年的論文了。
VisionPAD整體架構(gòu)
以一個(gè)視覺(jué)感知模型為主體,VisionPAD 利用多幀、多視角圖像作為輸入,生成顯式的體素表示。之后,一個(gè) 3DGS解碼器從體素特征中重建多視角圖像。隨后,應(yīng)用速度引導(dǎo)的體素變形,將當(dāng)前幀的體素特征變形到相鄰幀,從而利用相鄰幀圖像作為監(jiān)督,通過(guò) 3D-GS 解碼器實(shí)現(xiàn)自監(jiān)督重建。最后,通過(guò)相對(duì)位姿進(jìn)行重投影所知的光度一致性損失,強(qiáng)制 3D 幾何約束。
在上圖中,牽涉非常多的幾何和光傳播方程,如今絕大多數(shù)程序員和自動(dòng)駕駛研發(fā)人員都無(wú)法深度理解這種復(fù)雜的幾何算法和光傳播算法。
自監(jiān)督速度估計(jì)
目前的體素特征被扭曲到相鄰幀。隨后,使用 3DGS 解碼器渲染多視圖圖像,并通過(guò)在該幀中捕獲的圖像進(jìn)行監(jiān)督。
在nuScenes數(shù)據(jù)集上的得分表現(xiàn)如上,因?yàn)槭亲员O(jiān)督的,距離強(qiáng)監(jiān)督的感知算法自然有不小差距。目前nuScenes上NDS得分最高是北航和圖森的MV2Dfusion-e,高達(dá)78.8,mAP是0.779,排除地圖和外接數(shù)據(jù),nuScenes上NDS得分最高是上汽的BEVFusion4D-e,也有77.2,順便說(shuō)一下這是2023年3月的記錄,至今無(wú)人能打破,傳統(tǒng)算法的缺點(diǎn)就是進(jìn)展緩慢。
不過(guò)VisionPAD的專長(zhǎng)是OCC,感知性能不強(qiáng)是正常的。
幾種OCC算法對(duì)比
上圖是幾種OCC算法對(duì)比,很明顯,VisionPAD壓倒性的第一,不過(guò)測(cè)試數(shù)據(jù)集是OPUS,不是常見(jiàn)的Occ3D-nuScenes。
目前Occ3D-nuScenes上的排名
這是目前Occ3D-nuScenes上的排名,華為大幅提高了自監(jiān)督學(xué)習(xí)OCC算法的性能。不過(guò)和強(qiáng)監(jiān)督的最頂級(jí)算法COTR比應(yīng)該還是有差距。順便說(shuō)一句,COTR是華東師范大學(xué)提出的,一個(gè)師范大學(xué)的OCC算法輕松碾壓清華和一眾海外名校。
強(qiáng)監(jiān)督自有強(qiáng)監(jiān)督的好處,提升非常明顯。
對(duì)學(xué)術(shù)界來(lái)說(shuō),基本不考慮成本,產(chǎn)業(yè)界要在成本和性能之間找到平衡點(diǎn),不過(guò)絕大部分企業(yè)更傾向于壓低成本,端到端大幅度降低研發(fā)成本,但部署硬件成本暴增,傳統(tǒng)算法研發(fā)成本居高不下(不過(guò)數(shù)據(jù)集的成本正在顯著下降,自監(jiān)督越來(lái)越多),但部署成本遠(yuǎn)低于端到端,對(duì)于出貨量小的企業(yè)而言,分?jǐn)偟矫枯v車上的研發(fā)成本可能比硬件成本還高,端到端幾乎是唯一選擇,而對(duì)出貨量大的企業(yè)來(lái)說(shuō),兩者皆可選,大部分廠家還是選擇傳統(tǒng)算法。
免責(zé)說(shuō)明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng),不具有任何指導(dǎo)、投資和決策意見(jiàn)。