4ヶ月前
効率的かつ効果的なテキストからビデオの検索へ:大域から局所への視覚表現学習を用いて
Kaibin Tian; Yanhua Cheng; Yi Liu; Xinglin Hou; Quan Chen; Han Li

要約
近年、CLIPを基盤とするテキストからビデオの検索手法が急速に発展しています。進化の主な方向性は、より広範な視覚的および言語的な手がかりを活用し、それらのアライメントを達成することです。具体的には、高性能を示すこれらの手法は、文章(単語)-ビデオ(フレーム)間の相互作用のために重い融合ブロックを設計することが多く、計算複雑さが非常に高いことを考慮しても同様です。しかしながら、これらのアプローチは特徴量の利用と検索効率において最適とは言えません。この問題に対処するため、我々は多粒度視覚特徴学習を採用し、訓練段階で抽象的なレベルから詳細なレベルまで視覚コンテンツ特徴を捉えるモデルの包括性を確保します。多粒度特徴をより効果的に活用するために、検索段階では二段階の検索アーキテクチャを開発しました。このソリューションは巧妙に粗粒度と細粒度の検索内容のバランスを取りつつ、さらに検索効果と効率との調和も図っています。特に訓練段階では、パラメータフリーのテキストゲート相互作用ブロック(Text-Gated Interaction Block, TIB)を設計して細粒度ビデオ表現学習を行い、クロモーダル表現学習の最適化のためにピアソン制約(Pearson Constraint)を追加します。検索段階では、粗粒度ビデオ表現を使用して上位k候補を高速に召回し、その後細粒度ビデオ表現によって再順位付けを行います。4つのベンチマークにおける広範な実験により、本手法の効率性と有効性が示されました。特に注目に値するのは、本手法が現行の最先端手法と同等の性能を達成しつつ、その速度はほぼ50倍速いことです。