2ヶ月前

ビデオとテキストの検索向け統一粗密アライメント

Ziyang Wang; Yi-Lin Sung; Feng Cheng; Gedas Bertasius; Mohit Bansal
ビデオとテキストの検索向け統一粗密アライメント
要約

ビデオ-テキスト検索の標準的なアプローチは、視覚情報とテキスト情報の間の粗粒度または細粒度の対応関係を活用します。しかし、テキストクエリに従って正しいビデオを検索することは、高レベル(シーン)および低レベル(物体)の視覚的ヒントについて推論する能力が求められるため、しばしば困難です。この問題に対処するために、我々は統合された粗から細への対応モデルであるUCoFiA(Unified Coarse-to-fine Alignment model)を提案します。特に、当モデルは異なる粒度レベルでのクロスモーダル類似性情報を捉えます。無関係な視覚的ヒントの影響を軽減するために、異なる視覚特徴の重要性を考慮しながらクロスモーダル類似性を集約し、各粒度に対する類似性スコアを得るためのインタラクティブ類似性集約モジュール(ISA: Interactive Similarity Aggregation module)も適用します。最後に、異なるレベルでの過剰表現や不足表現の問題を緩和するために、各レベルの類似性を正規化した後にそれらを合計するシンカーン・ノップアルゴリズムを適用します。異なる粒度でのクロスモーダル類似性を共同で考慮することにより、UCoFiAは多粒度対応の一元化を効果的に実現します。経験的に、UCoFiAはMSR-VTT、Activity-Net、DiDeMoにおけるテキスト-ビデオ検索R@1においてそれぞれ2.4%、1.4%、1.3%の改善を達成し、以前の最先端CLIPベース手法よりも複数のビデオ-テキスト検索ベンチマークで優れた性能を示しています。我々のコードは公開されており、https://github.com/Ziyang412/UCoFiA から入手可能です。

ビデオとテキストの検索向け統一粗密アライメント | 最新論文 | HyperAI超神経