14日前

何を、どこを、いつ見るべきかを知る:注目メカニズムを用いた効率的なビデオ行動モデリング

Juan-Manuel Perez-Rua, Brais Martinez, Xiatian Zhu, Antoine Toisoul, Victor Escorcia, Tao Xiang
何を、どこを、いつ見るべきかを知る:注目メカニズムを用いた効率的なビデオ行動モデリング
要約

制約のない動画における行動認識において、注意メカニズムを用いた動画モデリングは、空間的・時間的に豊富ではあるが冗長な情報を効果的に処理する上で不可欠である。しかしながら、深層ニューラルネットワークに注意機構を導入する際には、以下の2つの課題が存在する。第一に、効果的な注意モジュールは、何を(物体およびその局所的な運動パターン)、どこに(空間的に)、いつ(時間的に)注目すべきかを学習しなければならない。第二に、動画用の注意モジュールは、既存の行動認識モデルがすでに高い計算コストを抱えているため、計算効率が求められる。これらの課題に対処するために、本研究では新しい「何・どこ・いつ(What-Where-When, W3)」動画注意モジュールを提案する。既存の手法とは異なり、本W3モジュールは動画注意の3つの側面(何・どこ・いつ)を統合的にモデル化する。特に、高次元の動画特徴データを、意味のある低次元空間に分解することで極めて効率的な構造を実現している。具体的には、「何」の側面は1次元のチャネルベクトル、「どこ」の側面は2次元の空間テンソルに分解し、その後、軽量な時間的注意推論を実行する。広範な実験により、本注意モデルが既存の行動認識モデルに顕著な性能向上をもたらすことが示され、多数のベンチマークにおいて新たな最良の結果を達成した。

何を、どこを、いつ見るべきかを知る:注目メカニズムを用いた効率的なビデオ行動モデリング | 最新論文 | HyperAI超神経