HyperAIHyperAI

Command Palette

Search for a command to run...

動画に基づく行動認識におけるモーション駆動型視覚テンポ学習

Yuanzhong Liu Junsong Yuan Zhigang Tu

概要

アクションの視覚的テンポ(Visual Tempo)は、行動の動的特性および時間スケールを特徴づけるものであり、視覚的ダイナミクスや外見が非常に類似した人間の行動を区別する上で有効である。従来の手法では、複数のサンプリングレートで原始動画を抽出する方法や、バックボーン特徴を階層的にサンプリングする方法が用いられてきた。前者は各レートに対応する高コストな多層ネットワークを必要とし、後者では高レベル特徴に依存するため、細粒度な時間的ダイナミクスを捉え損なう問題があった。本研究では、現在の行動認識バックボーンに「プラグアンドプレイ」の形で容易に組み込める時間相関モジュール(Temporal Correlation Module, TCM)を提案する。このTCMは単一層で低レベルのバックボーン特徴からアクションの視覚的テンポを著しく効果的に抽出できる。具体的には、TCMは2つの主要な構成要素からなる:マルチスケール時間的ダイナミクスモジュール(Multi-scale Temporal Dynamics Module, MTDM)と時間的アテンションモジュール(Temporal Attention Module, TAM)。MTDMは相関演算を用いて、高速テンポおよび低速テンポの両方に対してピクセル単位の細粒度な時間的ダイナミクスを学習する。TAMは、さまざまなテンポにわたるグローバル情報を分析することで、表現力のある特徴を適応的に強調し、不必要な特徴を抑制する。いくつかの行動認識ベンチマーク(Something-Something V1・V2、Kinetics-400、UCF-101、HMDB-51)における広範な実験により、提案するTCMが既存の動画ベース行動認識モデルの性能を大幅に向上させることを実証した。ソースコードは公開されており、https://github.com/yzfly/TCM にて入手可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています