Cap4Video:補助的なキャプションはテキスト-ビデオ検索に何ができるか?

現在の主流であるテキスト-動画検索手法は、動画の視覚的コンテンツとテキストクエリ文との間のクロスモーダルマッチングに主眼を置いています。しかし、実世界の状況では、オンライン動画にタイトル、タグ、さらには字幕など、関連するテキスト情報が付随していることが多く、これらを活用することでテキストクエリとのマッチングを改善できる可能性があります。この洞察に基づき、本研究では、ウェブ規模で事前学習されたモデル(例:CLIPやGPT-2)の知識を活用したゼロショット動画キャプション生成により、動画から直接関連するキャプションを生成する新しいアプローチを提案します。生成されたキャプションを用いて、自然に浮かぶ疑問として、「これらのキャプションはテキスト-動画検索にどのような利点をもたらすのか?」が挙げられます。この問いに答えるために、本研究ではCap4Videoという新フレームワークを導入し、キャプションを以下の3つの観点から活用します:i)入力データとして、動画-キャプションペアを訓練データに拡張する;ii)中間特徴の相互作用として、動画とキャプションの間でクロスモーダル特徴相互作用を行い、強化された動画表現を生成する;iii)出力スコアとして、元のクエリ-動画マッチングブランチを補完するためのクエリ-キャプションマッチングブランチを設ける。本研究では、提案手法の有効性を裏付けるため、包括的なアブレーションスタディを実施しました。後処理を一切行わずに、Cap4Videoは4つの標準的なテキスト-動画検索ベンチマークにおいて最先端の性能を達成しました。具体的には、MSR-VTT(51.4%)、VATEX(66.6%)、MSVD(51.8%)、DiDeMo(52.0%)の各指標で最高水準の結果を記録しました。コードは以下のURLから公開されています:https://github.com/whwu95/Cap4Video。