18日前

ホリスティック特徴は、テキストからビデオへの検索においてほぼ十分である

{Xirong Li, Bangxiang Lan, Zijie Xin, Ruixiang Zhao, Kaibin Tian}
ホリスティック特徴は、テキストからビデオへの検索においてほぼ十分である
要約

テキストから動画を検索する(Text-to-Video Retrieval, T2VR)タスクにおいて、アドホックなテキストクエリに基づいてラベルの付いていない動画を検索することを目的とし、現在ではCLIPに基づく手法が主流を占めている。CLIP4Clipと比較して、効率的かつコンパクトである一方、最先端のモデルは細粒度なクロスモーダル特徴の相互作用とマッチングを通じて動画-テキスト類似度を計算する傾向にあり、その結果、大規模なT2VRアプリケーションへのスケーラビリティに疑問が呈されている。本研究では、より高度ではあるが計算コストの高いモデルから、CLIP4Clipをベースとする学生ネットワークが学習できるようにする「TeachCLIP」を提案する。重い教師モデルから学生モデルへ細粒度なクロスモーダル知識を伝達する学習チャネルを構築するため、CLIP4Clipにシンプルな「Attentional frame-Feature Aggregation(AFA)」ブロックを追加した。このAFAブロックは設計上、検索ステージにおける追加のストレージや計算負荷を生じない。教師ネットワークが計算するフレーム-テキスト関連性スコアをソフトラベルとして用い、AFAが生成する注目重みを監督する。複数の公開データセットにおける広範な実験により、本手法の有効性が実証された。TeachCLIPはCLIP4Clipと同様の効率性とコンパクト性を維持しつつ、ほぼ最先端(near-SOTA)の性能を達成している。