加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 研究背景與動機(jī)
    • 主要貢獻(xiàn)
    • 實驗與結(jié)果
    • 結(jié)論
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

利用時間因果關(guān)系進(jìn)行高級時間動作檢測

08/05 11:00
2195
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

論文 Harnessing Temporal Causality for Advanced Temporal Action Detection 探討了在時間動作檢測(Temporal Action Detection, TAD)中利用時間因果關(guān)系的重要性,并提出了一種新穎的混合因果塊(Hybrid Causal Block)來增強(qiáng)時間關(guān)系建模。

研究背景與動機(jī)

時間動作檢測是視頻理解中的一個重要任務(wù),旨在識別視頻中動作發(fā)生的時間段?,F(xiàn)有的方法大多忽略了時間因果關(guān)系,通常對過去和未來的信息對稱處理。然而,在實際場景中,動作邊界通常受到因果事件的影響,利用時間因果關(guān)系可以提高動作檢測的準(zhǔn)確性。

(a) 標(biāo)準(zhǔn)的時間建模方法對過去和未來的上下文一視同仁,例如卷積、圖網(wǎng)絡(luò)和自注意力機(jī)制,忽略了動作邊界變化本質(zhì)上是因果事件這一事實。(b) 和 (c) 通過分別限制模型僅訪問過去或未來的上下文來緩解這個問題。

主要貢獻(xiàn)

強(qiáng)調(diào)時間因果關(guān)系的重要性:提出了一種混合因果塊,結(jié)合了因果自注意力(causal self-attention)和因果Mamba機(jī)制,以增強(qiáng)時間關(guān)系建模。

實現(xiàn)了最先進(jìn)的性能:在多個TAD數(shù)據(jù)集上取得了最先進(jìn)的性能,特別是在EPIC-Kitchens和Ego4D挑戰(zhàn)賽中排名第一。

方法論

論文提出了一種一階段檢測框架,包括特征提取和動作檢測兩個部分:

特征提取

視頻編碼器:使用預(yù)訓(xùn)練的動作識別模型作為視頻編碼器,提取語義豐富的視頻特征。

視頻分割:將未剪輯的視頻分割成多個短片段,并使用滑動窗口方法獨立提取每個片段的特征。每個視頻片段可能會與其他片段重疊,具體取決于滑動窗口的步長。

空間-時間平均池化:在視頻骨干網(wǎng)絡(luò)之后應(yīng)用空間-時間平均池化,以獲得每個片段的密集視頻特征。

動作檢測

檢測模型:基于ActionFormer方法,使用混合因果塊替代原有的Transformer塊,以增強(qiáng)檢測性能。

優(yōu)化超參數(shù):在Ego4D-MQ和EPIC-Kitchens數(shù)據(jù)集上,優(yōu)化了四個超參數(shù):特征金字塔層數(shù)、回歸損失權(quán)重、輸入通道丟棄概率和訓(xùn)練周期數(shù)。

時間因果建模

因果Mamba塊:專注于因果建模,僅考慮前面的tokens。與Transformer的全序列自注意力不同,因果Mamba塊在前向和后向掃描方向上捕捉時間上下文。

混合因果塊:結(jié)合了因果自注意力和因果Mamba機(jī)制,能夠更好地捕捉動作轉(zhuǎn)換的時間依賴性和因果關(guān)系。

混合因果塊。我們將多頭自注意力(MHSA)和Mamba塊(SSM)結(jié)合在一起,并將它們的可見時間上下文限制為僅過去或未來的tokens,旨在捕捉長距離的時間依賴性和因果關(guān)系。前向和后向的MHSA和SSM中的參數(shù)是共享的,以減少TAD中的過擬合問題。

實驗與結(jié)果

數(shù)據(jù)集與指標(biāo)

數(shù)據(jù)集:在ActivityNet-1.3、THUMOS14、EPIC-Kitchens 100和Ego4D Moment Queries四個數(shù)據(jù)集上進(jìn)行評估。ActivityNet-1.3和THUMOS14包含第三人稱未剪輯視頻,而EPIC-Kitchens和Ego4D-MQ包含第一人稱視頻。

評價指標(biāo):使用平均精度(mAP)在不同IoU閾值下的平均mAP作為評價指標(biāo)。

性能比較

消融研究:在Ego4D-MQ數(shù)據(jù)集上進(jìn)行消融研究,驗證了混合因果塊的有效性。通過優(yōu)化檢測模型的超參數(shù),mAP從27.52%提高到29.45%。替換ActionFormer中的局部Transformer為因果注意力塊后,mAP進(jìn)一步提高到30.87%。最終,混合因果塊在驗證集上取得了32.19%的mAP,在測試集上取得了31.92%的mAP。

特征組合:使用InternVideo2特征進(jìn)一步提高性能,在測試集上達(dá)到34.12%的mAP。最終,通過結(jié)合InternVideo1和InternVideo2特征,平均mAP達(dá)到34.99%,Recall@1x在tIoU=0.5時達(dá)到52.83%,在Ego4D Moment Query Challenge 2024中排名第一。

結(jié)論

論文提出的混合因果塊在TAD任務(wù)中表現(xiàn)出色,實驗結(jié)果表明其在多個數(shù)據(jù)集上具有顯著的性能提升。未來的研究可以進(jìn)一步探索高效的端到端訓(xùn)練方法,以應(yīng)對大規(guī)模視頻數(shù)據(jù)的挑戰(zhàn)。

相關(guān)信息

代碼:https://github.com/sming256/OpenTAD

論文:https://arxiv.org/abs/2407.17792v2

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
ATXMEGA16D4-AU 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP44, 10 X 10 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ACB, TQFP-44

ECAD模型

下載ECAD模型
$3.06 查看
MCP23S17T-E/SS 1 Microchip Technology Inc 16 I/O, PIA-GENERAL PURPOSE, PDSO28, 5.30 MM, PLASTIC, SSOP-28

ECAD模型

下載ECAD模型
$1.74 查看
MK66FN2M0VLQ18 1 NXP Semiconductors FLASH, 180MHz, RISC MICROCONTROLLER, PQFP144

ECAD模型

下載ECAD模型
$48.66 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜