時系列サリエンシークエリネットワークによる効率的な動画認識

インターネットおよびモバイルデバイスにおけるマルチメディアデータの急激な増加に伴い、効率的な動画認識は現在、注目される研究トピックとなっている。既存の多くの方針は、フレームの注目度(salient)を分類ごとの特徴を意識せずに選択しているため、フレームの注目度とその属するカテゴリとの間の潜在的な関連性を無視している。この問題を軽減するために、我々は新たな「時系列的注目度クエリ(Temporal Saliency Query, TSQ)」メカニズムを提案する。このメカニズムは、分類ごとの情報を導入することで、注目度評価に細粒度な手がかりを提供する。具体的には、分類ごとの共通パターンをクエリとして用い、それに最も対応する注目度の高いフレームを応答として得るという、クエリ・レスポンスの枠組みで分類特有の注目度評価プロセスをモデル化する。その後、計算された類似度をフレームの注目度スコアとして採用する。この実現のため、視覚的外観の類似性に基づくTSQメカニズムと、テキスト的イベント・オブジェクト関係に基づくTSQメカニズムの2つのインスタンスを備えた「時系列的注目度クエリネットワーク(TSQNet)」を提案する。さらに、両モダリティ間のクロスモダリティ相互作用を導入し、情報交換を促進する。最終的に、2つのモダリティがそれぞれ最も信頼性の高いカテゴリに対して生成した分類特有の注目度スコアを用いて、注目度の高いフレームの選択を実行する。多数の実験により、本手法がActivityNet、FCVID、Mini-Kineticsの各データセットにおいて最先端の性能を達成することを示した。本研究のプロジェクトページは以下の通り:https://lawrencexia2008.github.io/projects/tsqnet