論文 SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders 提出了一種名為SA-DVAE(Semantic Alignment via Disentangled Variational Autoencoders)的新方法,用于改進零樣本骨架動作識別。
研究背景
動作識別是一個長期活躍的研究領(lǐng)域,具有廣泛的應(yīng)用,如監(jiān)控、監(jiān)測和人機交互。根據(jù)輸入數(shù)據(jù)類型,動作識別可以分為基于圖像、視頻、深度和骨架的識別。本文聚焦于骨架動作識別,這種方法由于姿態(tài)估計和傳感器技術(shù)的進步,成為視頻動作識別的一個可行替代方案。骨架動作識別對外觀和背景變化具有魯棒性,但現(xiàn)有方法主要依賴于監(jiān)督學(xué)習(xí),需要大量標(biāo)注數(shù)據(jù),這既昂貴又耗時。
與現(xiàn)有方法的比較。我們的方法是第一個將特征解耦應(yīng)用于基于骨架的零樣本動作識別問題的方法。所有現(xiàn)有方法都直接將骨架特征與文本特征對齊,而我們的方法只將語義相關(guān)的部分骨架特征與文本特征對齊。
問題陳述
在一些情況下,訓(xùn)練數(shù)據(jù)難以獲取或受到隱私問題的限制,零樣本學(xué)習(xí)(ZSL)提供了一種替代方案,通過利用未見類的名稱、屬性或描述來識別未見動作?,F(xiàn)有的骨架動作識別方法假設(shè)骨架序列捕捉良好且高度一致,主要關(guān)注如何語義優(yōu)化文本表示。然而,通過對NTU RGB+D和PKU-MMD兩個廣泛使用的基準(zhǔn)數(shù)據(jù)集進行仔細(xì)檢查,發(fā)現(xiàn)這種假設(shè)是有問題的。相機位置和演員動作差異會帶來顯著噪聲。
方法介紹
受現(xiàn)有ZSL方法的啟發(fā),SA-DVAE通過將骨架潛在特征空間解耦為語義相關(guān)和語義無關(guān)的兩個部分來解決泛化問題。具體來說,SA-DVAE包括以下幾個關(guān)鍵組件:
SA-DVAE的系統(tǒng)架構(gòu)。首先,使用特征提取器來提取特征。隨后,跨模態(tài)對齊模塊對齊兩種模態(tài)并生成語義相關(guān)的未見骨架特征(zxr)。這些生成的特征用于訓(xùn)練分類器。
跨模態(tài)對齊模塊。該模塊有兩個主要任務(wù):通過自重建構(gòu)建潛在空間和通過交叉重建進行跨模態(tài)對齊。骨架特征被解耦為語義相關(guān)(zxr)和語義無關(guān)(zxv)的因素。
特征解耦:將骨架特征分解為語義相關(guān)和語義無關(guān)的部分,僅對語義相關(guān)的部分進行對齊。
對抗性總相關(guān)懲罰:通過一個對抗性鑒別器來鼓勵兩個解耦特征之間的獨立性,減少共享信息。
實驗結(jié)果
在NTU RGB+D 60、NTU RGB+D 120和PKU-MMD數(shù)據(jù)集上進行的廣泛實驗表明,SA-DVAE在ZSL和廣義零樣本學(xué)習(xí)(GZSL)基準(zhǔn)上達到了最先進的性能。具體結(jié)果如下:
- 在NTU RGB+D 60數(shù)據(jù)集上,SA-DVAE在GZSL協(xié)議下的準(zhǔn)確率提高了7.25%和6.23%,在ZSL協(xié)議下提高了4.39%和1.2%。通過隨機選擇未見類進行多次實驗,SA-DVAE在不同特征提取器的設(shè)置下也表現(xiàn)出色。
結(jié)論
SA-DVAE通過使用特征解耦方法將骨架數(shù)據(jù)分為語義相關(guān)和無關(guān)的兩個獨立表示,并通過對抗性鑒別器來增強特征解耦,顯著提高了零樣本和廣義零樣本學(xué)習(xí)的性能。
相關(guān)信息
代碼:https://github.com/pha123661/SA-DVAE
論文:https://arxiv.org/abs/2407.13460v1