17日前

時間的なクエリネットワークによる細粒度ビデオ理解

Chuhan Zhang, Ankush Gupta, Andrew Zisserman
時間的なクエリネットワークによる細粒度ビデオ理解
要約

本研究の目的は、時間的に延長されたものや数フレームにしか及ばないものも含む、トリムされていない動画における行動の細分化分類である。我々は、各クエリが特定の質問に応じて、それぞれ独自の応答ラベル集合を持つクエリ・レスポンス機構としてこの問題を定式化した。以下に4つの貢献を示す。(I) 時間的クエリネットワーク(Temporal Query Network: TQN)と呼ばれる新しいモデルを提案する。このモデルはクエリ・レスポンス機能を実現し、細分化された行動の構造的理解を可能にする。各クエリに対して関連する時間領域に注目するための時間的アテンション機構を備えており、各クエリのラベルのみを使用して学習可能である。(ii) 細分化されたクエリに応じた応答を実現するために必要な密なサンプリングを用いて、長さの異なる動画上でネットワークを学習するための新しい手法——確率的特徴バンク更新(stochastic feature bank update)——を提案する。(iii) TQNを他のアーキテクチャおよびテキスト監督手法と比較し、それらの利点と欠点を分析する。(iv) 最後に、細分化行動分類のためのFineGymおよびDiving48ベンチマーク上で本手法を広範に評価し、RGB特徴のみを用いて既存の最良手法を上回ることを確認した。