EAN:イベント適応型ネットワークによる行動認識の向上

動画における空間時系列情報の効率的なモデリングは、行動認識において極めて重要である。この目的を達成するため、最先端の手法は通常、畳み込み演算子および非局所ブロックのような密な相互作用モジュールを用いる。しかし、これらの手法は動画内の多様なイベントを正確に表現できない。一方で、採用される畳み込み演算子は固定されたスケールを持つため、スケールの異なるイベントに対応しきれない。他方で、密な相互作用モデリングアプローチは、行動に無関係な領域が最終予測にノイズをもたらすため、最適な性能を達成できない。本論文では、動画コンテンツの動的特性を捉えるために、以下の設計を導入した統一的な行動認識フレームワークを提案する。第一に、局所的な特徴を抽出する際、イベントの多様性に適応するため、スケールが動的に変化する空間時系列カーネルを生成する。第二に、これらの特徴を正確にグローバルな動画表現に統合するため、Transformerを用いて少数の選択された前景オブジェクト間でのみ相互作用を抽出するスパースなアプローチを提案する。本フレームワークは、これらの主要な設計が入力動画コンテンツに適応可能であるため、イベント適応型ネットワーク(Event Adaptive Network, EAN)と呼ぶ。さらに、局所セグメント内の短期的な運動を効果的に捉えるために、新しいかつ効率的な潜在運動コード(Latent Motion Code, LMC)モジュールを提案し、フレームワークの性能をさらに向上させた。Something-to-Something V1・V2、Kinetics、Diving48など、多数の大規模動画データセットにおける広範な実験により、本モデルが低FLOPs条件下でも最先端または競争力のある性能を達成することが確認された。コードは以下のURLで公開されている:https://github.com/tianyuan168326/EAN-Pytorch。