
対照学習(contrastive learning)は、Transformerをベースとする視覚言語モデルのトレーニングにおいて、動画とテキストの対応付けおよびマルチモーダル表現学習に広く用いられている。本論文では、二つの新規技術を用いて対照学習を改善する新しいアルゴリズム、すなわち「トークン認識型カスケード対照学習(Token-Aware Cascade contrastive learning, TACo)」を提案する。第一の技術は、語の構文的クラス(品詞分類)を考慮して計算される「トークン認識型対照損失(token-aware contrastive loss)」である。このアイデアは、動画-テキストペアにおいて、名詞や動詞といった内容語(content words)が、機能語(function words)よりも視覚的コンテンツと対応しやすいという観察に基づいている。第二の技術として、マルチモーダル融合層における損失推定を効率化するため、ハードネガティブ例(hard negative examples)の少数セットを生成するカスケードサンプリング法を採用している。TACoの有効性を検証するため、我々は複数の下流タスク(テキスト-動画検索:YouCook2、MSR-VTT、ActivityNet;動画行動ステップ局所化:CrossTask;動画行動セグメンテーション:COIN)において、事前学習済みモデルの微調整(fine-tuning)を行った。実験結果から、従来手法と比較して、異なる実験設定において一貫した性能向上が確認され、YouCook2、MSR-VTT、ActivityNetの3つの公開テキスト-動画検索ベンチマークにおいて、新たなSOTA(最新の最良性能)を達成した。