
動画における動的運動情報の効率的なモデル化は、行動認識タスクにおいて極めて重要である。現在の最先端手法の多くは、運動表現として密なオプティカルフローに大きく依存している。RGBフレームとオプティカルフローを組み合わせた入力により優れた認識性能が達成可能であるが、オプティカルフローの抽出は非常に時間がかかる。これは当然ながらリアルタイム行動認識に不利な要因となる。本論文では、オプティカルフローへの依存を軽減することで、高速な行動認識を実現することを目指す。我々の動機は、行動を区別する上で特に重要なのは運動境界の微小な変位であるという観察に基づく。このため、新たな運動キューとして「外見の持続性(Persistence of Appearance, PA)」を提案する。オプティカルフローとは異なり、PAは運動境界における運動情報の抽出に重点を置いている。さらに、すべての可能な運動ベクトルについて網羅的なパッチ単位の探索を行うのではなく、特徴空間におけるピクセル単位の差分を累積するだけで済むため、より高い効率性を実現している。PAは従来のオプティカルフローに比べ、運動モデル化速度で1000倍以上高速(8196fps 対 8fps)である。さらに、PAによる短期間の動的情報を長期的な動的特性に統合するため、さまざまな時間スケールにわたる長距離時系列関係を適応的にモデル化できる「多時間スケール集約プーリング(Various-timescale Aggregation Pooling, VAP)」と呼ばれるグローバル時系列融合戦略も提案する。最終的に、提案するPAとVAPを統合し、強力な時系列モデリング能力を備えた統一フレームワーク「持続的外見ネットワーク(Persistent Appearance Network, PAN)」を構築した。6つの困難な行動認識ベンチマークにおける広範な実験により、PANが近年の最先端手法を低FLOPs(演算量)条件下で上回ることを実証した。コードおよびモデルは以下のURLで公開されている:https://github.com/zhang-can/PAN-PyTorch。