論文 LION: Linear Group RNN for 3D Object Detection in Point Clouds 提出了一種名為L(zhǎng)ION(LInear grOup RNN)的基于窗口的3D目標(biāo)檢測(cè)框架,用于點(diǎn)云中的精確3D目標(biāo)檢測(cè)。
(a) 不同3D骨干網(wǎng)絡(luò)在Waymo [49]、nuScenes [4]、Argoverse V2 [59]和ONCE [34]數(shù)據(jù)集上的檢測(cè)性能比較。在這里,我們采用Mamba [22]作為L(zhǎng)ION的默認(rèn)操作符。此外,我們還展示了用于實(shí)現(xiàn)3D骨干網(wǎng)絡(luò)中特征交互的DSVT (b) [57]和LION (c)的簡(jiǎn)化示意圖。
主要貢獻(xiàn)
提出LION框架
-
- :LION是一種基于線性組RNN的窗口化3D骨干網(wǎng)絡(luò),能夠?qū)崿F(xiàn)長(zhǎng)距離特征交互。與現(xiàn)有方法(如DSVT)不同,LION支持?jǐn)?shù)千個(gè)體素特征在大組中相互作用,從而建立長(zhǎng)距離關(guān)系。
LION的示意圖主要包括多個(gè)LION模塊,每個(gè)模塊配有體素生成以增強(qiáng)特征,并配有體素合并以沿高度維度對(duì)特征進(jìn)行下采樣。(H, W, D)表示3D特征圖的形狀,其中H、W和D分別是3D特征圖在X軸、Y軸和Z軸上的長(zhǎng)度、寬度和高度。N是LION模塊的數(shù)量。在LION中,我們首先將點(diǎn)云轉(zhuǎn)換為體素,并將這些體素劃分成一系列等大小的組。然后,我們將這些分組的特征輸入LION的3D骨干網(wǎng)絡(luò),以增強(qiáng)它們的特征表示。最后,這些增強(qiáng)的特征被輸入到BEV(鳥瞰圖)骨干網(wǎng)和檢測(cè)頭中,以進(jìn)行最終的3D檢測(cè)。
3D空間特征描述符:引入了一個(gè)簡(jiǎn)單的3D空間特征描述符,并將其與線性組RNN集成,以彌補(bǔ)線性組RNN在捕捉3D局部空間信息方面的不足。該描述符包括3D子流形卷積、LayerNorm層和GELU激活函數(shù)。
新3D體素生成策略:提出了一種新的3D體素生成策略,以增強(qiáng)前景特征,從而在高度稀疏的點(diǎn)云中產(chǎn)生更具辨別力的特征表示。不同于以往的方法,該策略通過選擇3D骨干網(wǎng)絡(luò)中特征圖的高響應(yīng)區(qū)域來生成體素,并利用線性組RNN的自回歸特性生成體素特征。
驗(yàn)證LION的泛化能力:通過不同的線性組RNN機(jī)制(如Mamba、RWKV、RetNet)驗(yàn)證了LION的泛化能力。
方法細(xì)節(jié)
(a) 顯示了LION模塊的結(jié)構(gòu),其中包括四個(gè)LION層、兩個(gè)體素合并操作、兩個(gè)體素?cái)U(kuò)展操作和兩個(gè)3D空間特征描述符。這里,1×、1/2×和1/4×分別表示3D特征圖的分辨率為(H, W, D)、(H/2, W/2, D/2)和(H/4, W/4, D/4)。(b) 是體素合并用于體素下采樣和體素?cái)U(kuò)展用于體素上采樣的過程。(c) 展示了LION層的結(jié)構(gòu)。(d) 顯示了3D空間特征描述符的詳細(xì)信息。
線性組RNN:LION框架采用線性組RNN來處理窗口內(nèi)的分組特征,以建立長(zhǎng)距離關(guān)系。然而,線性組RNN需要順序特征作為輸入,將體素特征轉(zhuǎn)換為順序特征可能會(huì)導(dǎo)致空間信息的丟失(例如,兩個(gè)在3D空間中非常接近的特征在1D序列中可能非常遠(yuǎn))。為此,作者提出了一個(gè)3D空間特征描述符來裝飾線性組RNN操作,從而彌補(bǔ)其在3D局部空間建模中的局限性。
體素生成策略:為了增強(qiáng)高度稀疏點(diǎn)云中的特征表示,提出了一種基于線性組RNN的3D體素生成策略。不同于以往的方法,該策略通過選擇3D骨干網(wǎng)絡(luò)中特征圖的高響應(yīng)區(qū)域來生成體素,并利用線性組RNN的自回歸特性生成體素特征。
體素生成的詳細(xì)過程。對(duì)于輸入的體素,我們首先選擇前景體素,并沿不同方向擴(kuò)散它們。然后,我們將擴(kuò)散體素的對(duì)應(yīng)特征初始化為零,并利用后續(xù)LION模塊的自回歸能力生成擴(kuò)散特征。請(qǐng)注意,為了簡(jiǎn)化說明,這里沒有展示體素合并過程。
體素合并和擴(kuò)展:為了使網(wǎng)絡(luò)獲得多尺度特征,LION采用了分層特征提取結(jié)構(gòu),通過體素合并和擴(kuò)展操作進(jìn)行特征下采樣和上采樣。具體來說,體素合并通過計(jì)算下采樣索引映射來合并體素,而體素?cái)U(kuò)展通過相應(yīng)的反向索引映射來上采樣下采樣的體素。
實(shí)驗(yàn)結(jié)果
Argoverse V2:在Argoverse V2驗(yàn)證集上,LION-RetNet、LION-RWKV和LION-Mamba分別達(dá)到了40.7 mAP、41.1 mAP和41.5 mAP,均超過了之前的SOTA方法SAFDNet。
ONCE:在ONCE驗(yàn)證集上,LION-RetNet、LION-RWKV和LION-Mamba分別達(dá)到了66.3 mAP、65.8 mAP和66.6 mAP,其中LION-Mamba比之前的SOTA方法CenterPoint高出6.5 mAP。
消融研究:通過消融研究,驗(yàn)證了大組大小設(shè)計(jì)、3D空間特征描述符和體素生成策略的有效性。結(jié)合所有組件后,LION的性能比基線提高了3.5 mAPH/L2。
消融研究
3D空間特征描述符的優(yōu)越性:通過比較不同替代方法(如MLP和線性RNN),驗(yàn)證了3D空間特征描述符在捕捉局部3D空間信息方面的優(yōu)越性。3D空間特征描述符使基線性能提升了1.7 mAPH/L2。
體素生成的有效性:通過比較不同的體素生成方法,驗(yàn)證了基于線性組RNN的體素生成策略的有效性?;诰€性組RNN的體素生成策略顯著優(yōu)于其他方法,性能提升了0.7 mAPH/L2。
結(jié)論
LION框架通過采用線性組RNN進(jìn)行大組特征交互,結(jié)合3D空間特征描述符和體素生成策略,在稀疏點(diǎn)云中實(shí)現(xiàn)了更具辨別力的特征表示。實(shí)驗(yàn)結(jié)果表明,LION在多個(gè)數(shù)據(jù)集上達(dá)到了SOTA性能。然而,盡管LION在長(zhǎng)距離特征交互方面表現(xiàn)出色,但其運(yùn)行速度仍需進(jìn)一步提升,因?yàn)榫€性RNN在并行計(jì)算方面不如Transformer高效。
相關(guān)信息
代碼:https://github.com/happinesslz/LION
論文:https://arxiv.org/abs/2407.18232v1