X-CLIP:ビデオ・テキスト検索におけるエンドツーエンド型マルチグレイン対比学習

ビデオ・テキスト検索は、マルチモーダル研究において重要な基礎的なタスクである。近年、大規模なマルチモーダル対照的事前学習(contrastive pre-training)の発展により、ビデオ・テキスト検索の進展が大きく促進されてきた。従来の研究は主に粗粒度(coarse-grained)または細粒度(fine-grained)の対照に注力してきたが、粗粒度表現と細粒度表現の間の対照、すなわちクロス粒度(cross-grained)対照については、ほとんど検討されていない。粗粒度対照や細粒度対照と比較して、クロス粒度対照は粗粒度特徴と各細粒度特徴間の相関を計算し、類似度計算の過程で粗粒度特徴に基づいて不要な細粒度特徴をフィルタリングできるため、検索精度の向上が期待できる。本研究では、このようなクロス粒度対照を活用する新たなマルチ粒度対照モデル、X-CLIPを提案する。しかしながら、もう一つの課題として、細粒度およびクロス粒度の類似度行列をインスタンスレベルの類似度に集約する「類似度集約問題」が存在する。この課題に対処するため、我々は「類似度行列上の注目機構(Attention Over Similarity Matrix, AOSM)」モジュールを提案する。このモジュールにより、モデルは本質的なフレームと単語の間の対照に注目し、不要なフレームや単語が検索結果に与える影響を低減できる。マルチ粒度対照と提案するAOSMモジュールを統合したX-CLIPは、MSR-VTT(R@1: 49.3)、MSVD(R@1: 50.4)、LSMDC(R@1: 26.1)、DiDeMo(R@1: 47.8)、ActivityNet(R@1: 46.2)の5つの広く用いられているビデオ・テキスト検索データセットにおいて、優れた性能を達成した。これらのベンチマークにおいて、従来の最先端手法と比較して、それぞれ+6.3%、+6.6%、+11.1%、+6.7%、+3.8%の相対的な性能向上を実現し、マルチ粒度対照とAOSMモジュールの有効性と優位性を明確に示した。