2ヶ月前

DyFADet: 動的特徴量集約による時間的アクション検出

Le Yang; Ziwei Zheng; Yizeng Han; Hao Cheng; Shiji Song; Gao Huang; Fan Li
DyFADet: 動的特徴量集約による時間的アクション検出
要約

最近提案されたニューラルネットワークベースの時系列アクション検出(Temporal Action Detection: TAD)モデルは、共有重みの検出ヘッドを使用することで、複雑なシーンから判別的な表現を抽出し、さまざまな長さのアクションインスタンスをモデル化するという点で本質的に制限されています。動的ニューラルネットワークの成功に着想を得て、本論文では新しい動的特徴量集約(Dynamic Feature Aggregation: DFA)モジュールを構築しました。このモジュールは、異なる時間戳でカーネル重みと受容野を同時に適応させることができます。DFAに基づいて提案される動的エンコーダ層は、アクション時間範囲内の時系列特徴量を集約し、抽出された表現の判別性を保証します。さらに、DFAを使用することで、調整されたパラメータと学習した受容野を持つ多尺度特徴量を適応的に集約する動的TADヘッド(Dynamic TAD Head: DyHead)を開発することができます。これにより、ビデオから多様な範囲のアクションインスタンスをより正確に検出することが可能になります。提案されたエンコーダ層とDyHeadを用いて開発された新しい動的TADモデルであるDyFADetは、HACS-Segment、THUMOS14、ActivityNet-1.3、Epic-Kitchen 100、Ego4D-Moment Queries V1.0、FineActionなど一連の挑戦的なTADベンチマークにおいて有望な性能を達成しています。コードは https://github.com/yangle15/DyFADet-pytorch で公開されています。

DyFADet: 動的特徴量集約による時間的アクション検出 | 最新論文 | HyperAI超神経