
要約
テキスト-動画検索(TVR)において、クロスモダリティ相互作用は重要な構成要素であるが、その相互作用を計算する際に影響を与える異なる要因が性能に与える影響については、これまでほとんど検討が行われてこなかった。本研究では、まず相互作用の枠組みを深く分析し、その計算が「異なる粒度における相互作用コンテンツ」と「同一意味を持つペアを区別するためのマッチング関数」という二つの項に分解可能であることを明らかにした。さらに、単一ベクトル表現および暗黙的な強度関数が最適化を著しく制約していることも観察した。これらの知見を基に、順次的かつ階層的な表現を捉えるための分離型フレームワークを提案する。まず、テキストおよび動画入力に自然に存在する順序構造を考慮し、重み付きトークン単位相互作用(WTI)モジュールを導入することで、コンテンツを分離し、ペアワイズ相関を適応的に活用する。この相互作用により、順次的入力に対してより優れた分離された多様体が形成される。次に、比較対象となるベクトルの成分間の冗長性を最小化するため、チャネル相関正則化(CDCR)を導入し、階層的表現の学習を促進する。提案手法の分離表現の有効性を、MSR-VTT、MSVD、VATEX、LSMDC、ActivityNet、DiDeMoなど、さまざまなベンチマークにおいて実証した。その結果、CLIP4Clipを大幅に上回り、それぞれR@1で+2.9%、+3.1%、+7.9%、+2.3%、+2.8%、+6.5%の向上を達成した。