2ヶ月前

STEP: 空間時間進行学習によるビデオアクション検出

Xitong Yang; Xiaodong Yang; Ming-Yu Liu; Fanyi Xiao; Larry Davis; Jan Kautz
STEP: 空間時間進行学習によるビデオアクション検出
要約

本論文では、Spatio-TEmporal Progressive (STEP) アクション検出器を提案します。これは、動画における空間時間的なアクション検出のための逐次学習フレームワークです。数少ない粗いスケールの提案キュボイドから始め、当手法は数段階にわたってアクションへと提案を段階的に洗練していきます。この方法により、前の段階からの回帰出力を活用することで、後段階で高品質な提案(すなわち、アクションの動きに準拠した提案)が徐々に得られます。各段階において、当手法は時間的に提案を適応的に拡張し、より多くの関連する時間的コンテキストを取り込むことができます。一回の実行でアクション検出を行う従来の手法と比較して、当逐次学習フレームワークはアクションチューブ内の空間的なずれを自然に処理できることから、空間時間的なモデリングにより効果的な手段を提供します。UCF101 および AVA データセット上で当手法を広範囲に評価し、優れた検出結果を示しました。特に注目に値するのは、初期の提案数がそれぞれ 11 および 34 の場合に 3 段階の逐次ステップを使用して、2つのデータセットで mAP(平均精度)が 75.0% および 18.6% を達成したこと�습니다。

STEP: 空間時間進行学習によるビデオアクション検出 | 最新論文 | HyperAI超神経