国产精品五月天婷婷视频,日韩精品合集在线第一页,亚洲欧美日韩国产综合第

論文 Harnessing Temporal Causality for Advanced Temporal Action Detection 探討了在時間動作檢測（Temporal Action Detection, TAD）中利用時間因果關(guān)系的重要性，并提出了一種新穎的混合因果塊（Hybrid Causal Block）來增強時間關(guān)系建模。

研究背景與動機

時間動作檢測是視頻理解中的一個重要任務(wù)，旨在識別視頻中動作發(fā)生的時間段?，F(xiàn)有的方法大多忽略了時間因果關(guān)系，通常對過去和未來的信息對稱處理。然而，在實際場景中，動作邊界通常受到因果事件的影響，利用時間因果關(guān)系可以提高動作檢測的準(zhǔn)確性。

(a) 標(biāo)準(zhǔn)的時間建模方法對過去和未來的上下文一視同仁，例如卷積、圖網(wǎng)絡(luò)和自注意力機制，忽略了動作邊界變化本質(zhì)上是因果事件這一事實。(b) 和 (c) 通過分別限制模型僅訪問過去或未來的上下文來緩解這個問題。

主要貢獻(xiàn)

強調(diào)時間因果關(guān)系的重要性：提出了一種混合因果塊，結(jié)合了因果自注意力（causal self-attention）和因果Mamba機制，以增強時間關(guān)系建模。

實現(xiàn)了最先進(jìn)的性能：在多個TAD數(shù)據(jù)集上取得了最先進(jìn)的性能，特別是在EPIC-Kitchens和Ego4D挑戰(zhàn)賽中排名第一。

方法論

論文提出了一種一階段檢測框架，包括特征提取和動作檢測兩個部分：

特征提取

視頻編碼器：使用預(yù)訓(xùn)練的動作識別模型作為視頻編碼器，提取語義豐富的視頻特征。

視頻分割：將未剪輯的視頻分割成多個短片段，并使用滑動窗口方法獨立提取每個片段的特征。每個視頻片段可能會與其他片段重疊，具體取決于滑動窗口的步長。

空間-時間平均池化：在視頻骨干網(wǎng)絡(luò)之后應(yīng)用空間-時間平均池化，以獲得每個片段的密集視頻特征。

動作檢測

檢測模型：基于ActionFormer方法，使用混合因果塊替代原有的Transformer塊，以增強檢測性能。

優(yōu)化超參數(shù)：在Ego4D-MQ和EPIC-Kitchens數(shù)據(jù)集上，優(yōu)化了四個超參數(shù)：特征金字塔層數(shù)、回歸損失權(quán)重、輸入通道丟棄概率和訓(xùn)練周期數(shù)。

時間因果建模

因果Mamba塊：專注于因果建模，僅考慮前面的tokens。與Transformer的全序列自注意力不同，因果Mamba塊在前向和后向掃描方向上捕捉時間上下文。

混合因果塊：結(jié)合了因果自注意力和因果Mamba機制，能夠更好地捕捉動作轉(zhuǎn)換的時間依賴性和因果關(guān)系。

混合因果塊。我們將多頭自注意力（MHSA）和Mamba塊（SSM）結(jié)合在一起，并將它們的可見時間上下文限制為僅過去或未來的tokens，旨在捕捉長距離的時間依賴性和因果關(guān)系。前向和后向的MHSA和SSM中的參數(shù)是共享的，以減少TAD中的過擬合問題。

實驗與結(jié)果

數(shù)據(jù)集與指標(biāo)

數(shù)據(jù)集：在ActivityNet-1.3、THUMOS14、EPIC-Kitchens 100和Ego4D Moment Queries四個數(shù)據(jù)集上進(jìn)行評估。ActivityNet-1.3和THUMOS14包含第三人稱未剪輯視頻，而EPIC-Kitchens和Ego4D-MQ包含第一人稱視頻。

評價指標(biāo)：使用平均精度（mAP）在不同IoU閾值下的平均mAP作為評價指標(biāo)。

性能比較

消融研究：在Ego4D-MQ數(shù)據(jù)集上進(jìn)行消融研究，驗證了混合因果塊的有效性。通過優(yōu)化檢測模型的超參數(shù)，mAP從27.52%提高到29.45%。替換ActionFormer中的局部Transformer為因果注意力塊后，mAP進(jìn)一步提高到30.87%。最終，混合因果塊在驗證集上取得了32.19%的mAP，在測試集上取得了31.92%的mAP。

特征組合：使用InternVideo2特征進(jìn)一步提高性能，在測試集上達(dá)到34.12%的mAP。最終，通過結(jié)合InternVideo1和InternVideo2特征，平均mAP達(dá)到34.99%，Recall@1x在tIoU=0.5時達(dá)到52.83%，在Ego4D Moment Query Challenge 2024中排名第一。

結(jié)論

論文提出的混合因果塊在TAD任務(wù)中表現(xiàn)出色，實驗結(jié)果表明其在多個數(shù)據(jù)集上具有顯著的性能提升。未來的研究可以進(jìn)一步探索高效的端到端訓(xùn)練方法，以應(yīng)對大規(guī)模視頻數(shù)據(jù)的挑戰(zhàn)。

相關(guān)信息

代碼：https://github.com/sming256/OpenTAD

論文：https://arxiv.org/abs/2407.17792v2

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
ATMEGA644PA-AUR	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 44TQFP		$4.99	查看
ATMEGA8515L-8AU	1	Microchip Technology Inc	IC MCU 8BIT 8KB FLASH 44TQFP	ECAD模型下載ECAD模型	$4.23	查看
ATXMEGA128A3U-MH	1	Atmel Corporation	RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 9 X 9 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, MO-220VMMD, MLF-64		$6.98	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險等級

參考價格

更多信息

ATMEGA644PA-AUR

Microchip Technology Inc

IC MCU 8BIT 64KB FLASH 44TQFP

$4.99

查看

ATMEGA8515L-8AU

Microchip Technology Inc

IC MCU 8BIT 8KB FLASH 44TQFP

$4.23

查看

ATXMEGA128A3U-MH

Atmel Corporation

RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 9 X 9 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, MO-220VMMD, MLF-64

$6.98

查看

利用時間因果關(guān)系進(jìn)行高級時間動作檢測