3ヶ月前

TDN:効率的なアクション認識のための時系列差分ネットワーク

Limin Wang, Zhan Tong, Bin Ji, Gangshan Wu
TDN:効率的なアクション認識のための時系列差分ネットワーク
要約

動画における行動認識において、時系列モデリングは依然として挑戦的な課題である。本論文では、この問題を軽減するため、効率的な行動認識に向けた多スケール時系列情報を捉えることを目的として、Temporal Difference Network(TDN)と呼ばれる新しい動画アーキテクチャを提案する。TDNの核となるのは、明示的に時系列差分演算子を活用することで効率的な時系列モジュール(Temporal Difference Module: TDM)を設計し、短期的および長期的運動モデリングにおけるその効果を体系的に評価することである。動画全体にわたる時系列情報を十分に捉えるために、TDNは二段階の差分モデリング枠組みに基づいて構築されている。具体的には、局所的な運動モデリングにおいては、連続フレーム間の時系列差分を用いて2次元CNNにより細かい運動パターンを供給し、グローバルな運動モデリングでは、セグメント間の時系列差分を組み込むことで、長距離構造を捉え、運動特徴の強調を実現する。TDNはシンプルかつ原理的な時系列モデリングフレームワークを提供し、既存のCNNアーキテクチャに小さな追加計算コストで容易に統合可能である。実験の結果、TDNはSomething-Something V1 & V2データセットにおいて新たなSOTA(最良の結果)を達成し、Kinetics-400データセットにおいても最良の性能と同等の結果を示した。さらに、詳細なアブレーションスタディとTDNの可視化結果を提示することで、時系列差分モデリングに関する洞察を提供することを目的としている。コードはhttps://github.com/MCG-NJU/TDNにて公開している。