17日前

動画に基づく行動認識におけるモーション駆動型視覚テンポ学習

Yuanzhong Liu, Junsong Yuan, Zhigang Tu
動画に基づく行動認識におけるモーション駆動型視覚テンポ学習
要約

アクションの視覚的テンポ(Visual Tempo)は、行動の動的特性および時間スケールを特徴づけるものであり、視覚的ダイナミクスや外見が非常に類似した人間の行動を区別する上で有効である。従来の手法では、複数のサンプリングレートで原始動画を抽出する方法や、バックボーン特徴を階層的にサンプリングする方法が用いられてきた。前者は各レートに対応する高コストな多層ネットワークを必要とし、後者では高レベル特徴に依存するため、細粒度な時間的ダイナミクスを捉え損なう問題があった。本研究では、現在の行動認識バックボーンに「プラグアンドプレイ」の形で容易に組み込める時間相関モジュール(Temporal Correlation Module, TCM)を提案する。このTCMは単一層で低レベルのバックボーン特徴からアクションの視覚的テンポを著しく効果的に抽出できる。具体的には、TCMは2つの主要な構成要素からなる:マルチスケール時間的ダイナミクスモジュール(Multi-scale Temporal Dynamics Module, MTDM)と時間的アテンションモジュール(Temporal Attention Module, TAM)。MTDMは相関演算を用いて、高速テンポおよび低速テンポの両方に対してピクセル単位の細粒度な時間的ダイナミクスを学習する。TAMは、さまざまなテンポにわたるグローバル情報を分析することで、表現力のある特徴を適応的に強調し、不必要な特徴を抑制する。いくつかの行動認識ベンチマーク(Something-Something V1・V2、Kinetics-400、UCF-101、HMDB-51)における広範な実験により、提案するTCMが既存の動画ベース行動認識モデルの性能を大幅に向上させることを実証した。ソースコードは公開されており、https://github.com/yzfly/TCM にて入手可能である。

動画に基づく行動認識におけるモーション駆動型視覚テンポ学習 | 最新論文 | HyperAI超神経