2ヶ月前
活動ビデオにおける潜在的なサブイベントの学習に時間的注意フィルターを使用する
Piergiovanni, AJ ; Fan, Chenyou ; Ryoo, Michael S.

要約
本論文では、時系列注意フィルター(temporal attention filters)の概念を新たに導入し、ビデオから人間の活動認識にどのように利用できるかを説明します。多くの高レベルな活動は、異なる持続時間や速度を持つ複数の時系列部分(例えば、サブイベント)で構成されることが多く、我々の目的はモデルがこれらの時系列構造を明示的に学習し、それを活用することです。我々の時系列フィルターは完全に微分可能に設計されており、フレームベースまたはセグメントベースの畳み込みニューラルネットワーク(CNN)アーキテクチャと組み合わせてエンドツーエンドで訓練することが可能です。本論文では、最適な静的な時系列注意フィルターの集合を学習し、異なるビデオ間で共有する方法を提案するとともに、リカレント長短期記憶ネットワーク(LSTM)を使用してテストビデオごとに動的に注意フィルターを調整する方法を拡張しています。これにより、我々の時系列注意フィルターは各活動固有の潜在的なサブイベントを学習することができます。実験結果から、提案された時系列注意フィルターの概念が活動認識に有益であることを確認し、学習された潜在的なサブイベントを可視化しました。