二重モード注目強化型テキスト-動画検索:三重部分マージン対照学習を用いた手法

近年、ウェブ動画の急増に伴い、動画のフィルタリング、推薦および検索において、テキスト-動画検索(text-video retrieval)の重要性と普及が高まっている。テキスト-動画検索の目的は、関連するテキストまたは動画を非関連のものよりも高い順位にランク付けすることである。このタスクの核となるのは、テキストと動画間のクロスモーダル類似度を正確に測定することである。近年、対照学習(contrastive learning)手法がテキスト-動画検索において有望な成果を示しており、その多くは正例対(positive pairs)と負例対(negative pairs)の構築に注力し、テキストおよび動画の表現を学習することに集中している。しかし、これらの手法はハードネガティブペア(hard negative pairs)への注目が不足しており、異なるレベルの意味的類似度をモデル化する能力にも欠けている。こうした2つの課題に対処するため、本論文では2つの新規技術を用いて対照学習を改善する。第一に、堅牢な識別力を得るためのハード例(hard examples)を活用するため、テキスト的および視覚的ヒントからハードネガティブペアを抽出するための新規な二モーダル注意強化モジュール(Dual-Modal Attention-Enhanced Module; DMAE)を提案する。さらに、ネガティブに注意を払うInfoNCE(NegNCE)損失を導入することで、これらのハードネガティブを適応的に同定し、訓練損失におけるそれらの影響を明示的に強調することが可能となる。第二に、本研究は、ペアワイズサンプルよりもトライオットサンプル(triplet samples)の方が細粒度の意味的類似度をより適切にモデル化できると主張する。そこで、一致するテキスト-動画ペアに対して、細粒度のハードネガティブを自動生成し、部分順序(partial order)をもつトライオットサンプルを構築する新しいトライオット部分マージン対照学習(Triplet Partial Margin Contrastive Learning; TPM-CL)モジュールを提案する。提案するTPM-CLは、クロスモーダル相互作用を考慮した適応的トークンマスキング戦略を設計し、微細な意味的差異をモデル化する。広範な実験により、提案手法がMSR-VTT、MSVD、DiDeMo、ActivityNetの4つの代表的なテキスト-動画検索データセットにおいて、既存手法を上回ることを実証した。