9日前

X-Pool：テキスト-ビデオ検索におけるクロスモーダル言語-ビデオアテンション

Satya Krishna Gorti, Noel Vouitsis, Junwei Ma, Keyvan Golestan, Maksims Volkovs, Animesh Garg, Guangwei Yu

要約

テキスト-動画検索（text-video retrieval）では、テキストと動画の間のクロスモーダル類似度関数を学習し、関連するテキスト-動画ペアを非関連ペアよりも高い順位にランク付けすることが目的である。しかし、動画はテキストに比べてはるかに広範な情報を内包している。一方で、テキストは動画全体の一部領域を捉えており、特定のフレームと最も意味的に類似していることが多い。したがって、与えられたテキストに対して、検索モデルはそのテキストと意味的に最も類似する動画の部分領域に注目すべきである。これにより、より関連性の高い比較が可能となる。しかし、既存の多くの手法はテキストの内容を直接考慮せずに、動画全体を統合（aggregation）している。一般的なテキスト無視型の統合手法として、フレーム間の平均プーリングや自己注意（self-attention）が用いられるが、これらは与えられたテキストに記述されていない誤解を招く視覚的情報を含む可能性が高い。この問題に対処するため、本研究ではテキストと動画フレームの間で推論を行うクロスモーダル注意モデル「X-Pool」を提案する。本モデルの核心的なメカニズムは、テキストが意味的に最も類似するフレームに注目するためのスケールドドット積注意（scaled dot product attention）である。その後、テキストがフレームに与える注目重みに基づいて、条件付きの統合動画表現を生成する。提案手法は、MSR-VTT、MSVD、LSMDCの3つのベンチマークデータセットにおいて評価され、Recall@1において最大12%の相対的改善を達成し、新たな最先端（SOTA）の性能を実現した。これらの結果は、テキストに応じて重要な視覚的手がかりを抽出するためのテキスト-動画の共同推論の重要性を示している。実装コードおよびデモは以下のURLから公開されている：https://layer6ai-labs.github.io/xpool/