加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 1. 背景與動(dòng)機(jī)
    • 2. EdgeNAT的模型設(shè)計(jì)
    • 3. 實(shí)驗(yàn)與結(jié)果
    • 4. 結(jié)論
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

EdgeNAT: 高效邊緣檢測(cè)的 Transformer

08/26 15:03
1968
閱讀需 8 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

論文 EdgeNAT: Transformer for Efficient Edge Detection 介紹了一種名為EdgeNAT的基于Transformer的邊緣檢測(cè)方法。

1. 背景與動(dòng)機(jī)

邊緣檢測(cè)是許多計(jì)算機(jī)視覺任務(wù)的基礎(chǔ),旨在從輸入圖像中精確提取物體邊界和視覺顯著的邊緣。然而,由于圖像中存在遠(yuǎn)距離物體、復(fù)雜背景中的模糊邊界以及物體內(nèi)部的顏色變化等挑戰(zhàn),邊緣檢測(cè)任務(wù)變得十分困難。傳統(tǒng)的邊緣檢測(cè)方法主要依賴于顏色和紋理等局部信息,而基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)方法雖然可以擴(kuò)展感受野以捕捉全局特征,但容易丟失細(xì)節(jié)信息。

近年來,Transformer在視覺任務(wù)中展示出了強(qiáng)大的特征提取能力,特別是具有層次結(jié)構(gòu)的Dilated Neighborhood Attention Transformer (DiNAT)在有效捕捉全局和局部特征方面表現(xiàn)出色。然而,Transformer在邊緣檢測(cè)中的應(yīng)用尚未得到充分開發(fā)。為了解決這一問題,論文提出了一種基于DiNAT的單階段邊緣檢測(cè)模型——EdgeNAT,以期在精確提取物體邊界和重要邊緣的同時(shí),提升檢測(cè)效率。

2. EdgeNAT的模型設(shè)計(jì)

2.1 編碼器:DiNAT

EdgeNAT的編碼器采用了Dilated Neighborhood Attention Transformer (DiNAT),該模型能夠同時(shí)保留局部信息的翻譯等變性,并通過擴(kuò)展感受野來捕捉長(zhǎng)距離的特征依賴。DiNAT的結(jié)構(gòu)通過在每個(gè)層次之間使用3x3卷積進(jìn)行下采樣,逐層減小空間分辨率,同時(shí)增加通道數(shù)。這種設(shè)計(jì)使得DiNAT在保持局部性和擴(kuò)展感受野方面表現(xiàn)優(yōu)異,從而適用于邊緣檢測(cè)任務(wù)。

2.2 解碼器:SCAF-MLA

為了充分利用Transformer編碼器生成的豐富特征,論文提出了一種新的解碼器結(jié)構(gòu)——空間和通道注意力融合多級(jí)聚合(SCAF-MLA)。這個(gè)解碼器的核心組件是SCAF模塊,它結(jié)合了空間注意力模塊(SAM)和通道注意力模塊(CAM),以同時(shí)計(jì)算特征圖的空間和通道權(quán)重。這種設(shè)計(jì)能夠在保持當(dāng)前層次特征的獨(dú)特性的同時(shí),捕捉更高級(jí)別的特征,有助于在更高層次提取全局語義信息,同時(shí)在低層次保留細(xì)致的局部信息。

此外,解碼器還通過一種稱為預(yù)融合的技術(shù)來進(jìn)一步提高性能,即在融合操作之前,將每一層的特征通道減少到與編碼器第一層相同的數(shù)量,而不是直接減少到1。這種方法能夠更好地集成不同層次的特征,提高邊緣檢測(cè)的精度。

3. 實(shí)驗(yàn)與結(jié)果

3.1 數(shù)據(jù)集與訓(xùn)練

論文在兩個(gè)主流數(shù)據(jù)集上對(duì)EdgeNAT進(jìn)行了評(píng)估:BSDS500和NYUDv2。BSDS500包含500張RGB圖像,通過數(shù)據(jù)增強(qiáng)擴(kuò)展到28,800張圖像,模型在PASCAL VOC Context數(shù)據(jù)集上預(yù)訓(xùn)練后,使用BSDS500數(shù)據(jù)集進(jìn)行微調(diào)并評(píng)估。NYUDv2數(shù)據(jù)集包含1449對(duì)RGB和深度圖像,模型在經(jīng)過擴(kuò)展的訓(xùn)練和驗(yàn)證集上訓(xùn)練,并在測(cè)試集上進(jìn)行評(píng)估。

對(duì)BSDS500測(cè)試集中三個(gè)具有挑戰(zhàn)性的樣本進(jìn)行了定性比較。有趣的是,在第三個(gè)示例中,盡管帽子的邊緣即使對(duì)于人眼也難以分辨,但我們的L模型仍然能夠完整地檢測(cè)出右側(cè)帽子的邊緣。這個(gè)前所未有的現(xiàn)象表明,我們的模型在全局語義理解方面優(yōu)于之前的工作。

BSDS500測(cè)試集上的結(jié)果。最佳的兩個(gè)結(jié)果分別用紅色和藍(lán)色標(biāo)出,其他表格中也是如此。?表示使用額外的PASCAL VOC數(shù)據(jù)進(jìn)行訓(xùn)練,?表示多尺度測(cè)試。

3.2 消融實(shí)驗(yàn)

消融實(shí)驗(yàn)驗(yàn)證了不同設(shè)計(jì)對(duì)模型性能的影響。結(jié)果表明,預(yù)融合比最終融合對(duì)性能提升更大,而底部路徑(Bottom-up Path)對(duì)DiNAT編碼器的邊緣檢測(cè)效果反而有負(fù)面影響。此外,實(shí)驗(yàn)還驗(yàn)證了SCAF模塊的有效性,相比于PPM模塊,SCAF模塊能夠在不增加計(jì)算復(fù)雜度的情況下顯著提升邊緣檢測(cè)的性能。

3.3 模型可擴(kuò)展性

為了適應(yīng)不同的應(yīng)用場(chǎng)景,論文設(shè)計(jì)了五個(gè)不同參數(shù)規(guī)模的EdgeNAT模型(L、S0、S1、S2、S3),其中L模型擁有最多的參數(shù)。實(shí)驗(yàn)結(jié)果表明,隨著模型規(guī)模的減小,邊緣檢測(cè)的性能略有下降,但推理速度顯著提升,特別是S0模型,由于其第三層只有6層,處理速度遠(yuǎn)高于其他模型。

3.4 與現(xiàn)有方法的比較

在BSDS500數(shù)據(jù)集上,EdgeNAT-L模型在單尺度輸入情況下取得了84.3%的ODS,超過了所有現(xiàn)有的邊緣檢測(cè)方法。在多尺度輸入情況下,EdgeNAT-L模型的ODS達(dá)到了86.0%,進(jìn)一步證明了其在準(zhǔn)確性和效率方面的優(yōu)越性。相比于傳統(tǒng)的Canny和gPb-UCM方法,EdgeNAT在精度和召回率上均有顯著提高。同時(shí),EdgeNAT的推理速度在RTX 4090 GPU上達(dá)到20.87 FPS,遠(yuǎn)高于EDTER的2.2 FPS,展示了Transformer在邊緣檢測(cè)任務(wù)中的巨大潛力。

在NYUDv2數(shù)據(jù)集上,EdgeNAT-L模型在RGB、HHA和RGB-HHA三種輸入類型下的ODS分別為78.9%、72.6%和79.4%,同樣超過了現(xiàn)有的最佳方法,展示了模型的廣泛適用性。

4. 結(jié)論

論文總結(jié)了EdgeNAT的主要貢獻(xiàn):通過引入DiNAT作為編碼器,不僅提升了邊緣檢測(cè)的精度,還顯著提高了計(jì)算效率;提出了SCAF模塊,用于生成更豐富、更準(zhǔn)確的特征表示;設(shè)計(jì)了適應(yīng)不同應(yīng)用場(chǎng)景的五個(gè)模型版本,并在BSDS500和NYUDv2數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),證明了EdgeNAT在效率和準(zhǔn)確性方面的優(yōu)勢(shì)。

相關(guān)信息

代碼:https://github.com/jhjie/edgenat

論文:https://arxiv.org/abs/2408.10527v1

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
MPC5554MZP132 1 Freescale Semiconductor 32-BIT, FLASH, 132MHz, MICROCONTROLLER, PBGA416, 27 X 27 MM, 1 MM PITCH, PLASTIC, MS-034AAL-1, TEBGA-416
$80.8 查看
ATMEGA64A-AU 1 Atmel Corporation RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 16MHz, CMOS, PQFP64, 14 X 14 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026AEB, TQFP-64

ECAD模型

下載ECAD模型
$4.99 查看
MCF5282CVM66J 1 Freescale Semiconductor IC,MICROCONTROLLER,32-BIT,COLDFIRE CPU,CMOS,BGA,256PIN,PLASTIC
暫無數(shù)據(jù) 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜