Command Palette
Search for a command to run...
時間的アテンションフィルタを用いたアクティビティ動画内の潜在的サブイベントの学習
時間的アテンションフィルタを用いたアクティビティ動画内の潜在的サブイベントの学習
Piergiovanni AJ Fan Chenyou Ryoo Michael S.
概要
本稿では、時系列的な注意フィルタ(temporal attention filters)という新しい概念を導入し、動画から人間の行動認識を行う際の活用方法を述べる。多くの高レベルな行動は、異なる持続時間や速度を持つ複数の時系列的部分(例:部分イベント)から構成されることが多く、本研究の目的は、複数の注意フィルタを用いてモデルがこうした時系列構造を明示的に学習し、その恩恵を受けることにある。本研究で提案する時系列フィルタは、完全に微分可能に設計されており、基盤となるフレームベースまたはセグメントベースの畳み込みニューラルネットワーク(CNN)アーキテクチャと、エンド・ツー・エンドで同時に学習可能である。本稿では、異なる動画間で共有可能な最適な静的時系列注意フィルタの学習手法を提示し、さらに、再帰的な長短期記憶ネットワーク(LSTM)を用いて、各テスト動画ごとに注意フィルタを動的に調整するアプローチへと拡張する。これにより、各行動固有の潜在的な部分イベントを時系列注意フィルタが学習可能となる。実験により、提案する時系列注意フィルタの概念が行動認識性能の向上に寄与することを確認したうえで、学習された潜在的部分イベントを可視化した。