9日前

ビデオ・テキスト検索の向上を図るためのマルチストリームコーパスアライメントとデュアルSoftmax損失

Xing Cheng, Hezheng Lin, Xiangyu Wu, Fan Yang, Dong Shen
ビデオ・テキスト検索の向上を図るためのマルチストリームコーパスアライメントとデュアルSoftmax損失
要約

大規模な事前学習モデルCLIPを用いた動画-テキスト検索(Video-Text Retrieval, VTR)タスクへの応用が新たなトレンドとなっており、従来のVTR手法を上回る性能を示している。しかし、動画とテキストの構造および内容の異質性(heterogeneity)のため、従来のCLIPベースのモデルは学習段階で過学習を起こしやすく、結果として検索性能が相対的に低くなる傾向にある。本論文では、この二つの異質性を解決するため、単一ゲート型Mixture-of-Experts(MoE)を用いたマルチストリームコーパス整合ネットワーク(CAMoE)と、新規のデュアルソフトマックス損失(Dual Softmax Loss, DSL)を提案する。CAMoEは、Mixture-of-Experts(MoE)を活用して、行動(action)、エンティティ(entity)、シーン(scene)など複数の視点からの動画表現を抽出し、それぞれを対応するテキスト部分と整合させる。この段階では、特徴抽出モジュールおよび特徴整合モジュールについて大規模な探索を実施している。一方、DSLは、従来の対照学習手法で生じる「一方的最適マッチ」問題を回避することを目的としている。バッチ内のペアごとの内在的事前知識(intrinsic prior)を導入することで、DSLは類似度行列を修正する「修正者(reviser)」として機能し、二重最適マッチを実現する。DSLは実装が容易であり、たった一行のコードで導入可能であるが、性能向上は顕著である。実験結果から、提案するCAMoEおよびDSLはいずれも高い効率性を示しており、MSR-VTT、MSVD、LSMDCといった複数のベンチマークにおいて、個別にSOTA(State-of-the-Art)性能を達成することが可能である。さらに、両者を組み合わせることで、性能は大幅に向上し、MSR-VTTにおいて従来のSOTA手法を約4.6%のR@1で上回った。

ビデオ・テキスト検索の向上を図るためのマルチストリームコーパスアライメントとデュアルSoftmax損失 | 最新論文 | HyperAI超神経