17 天前

双模态注意力增强的文本-视频检索与三元组部分边距对比学习

Chen Jiang, Hong Liu, Xuzheng Yu, Qing Wang, Yuan Cheng, Jia Xu, Zhongyi Liu, Qingpei Guo, Wei Chu, Ming Yang, Yuan Qi

摘要

近年来，网络视频的爆发式增长使得文本-视频检索在视频过滤、推荐和搜索等场景中变得日益重要且广受欢迎。文本-视频检索的目标是将相关文本或视频排在不相关内容之前。该任务的核心在于精确度量文本与视频之间的跨模态相似性。近年来，对比学习方法在文本-视频检索任务中展现出良好的性能，大多数方法通过构建正负样本对来学习文本与视频的表示。然而，现有方法对困难负样本的关注不足，且缺乏对不同层次语义相似性的建模能力。针对上述两个问题，本文提出两种新颖技术以改进对比学习方法。首先，为充分挖掘困难样本以增强模型的判别能力，本文提出一种新型双模态注意力增强模块（Dual-Modal Attention-Enhanced Module, DMAE），该模块能够基于文本和视觉线索自动挖掘困难负样本。进一步引入一种面向负样本的InfoNCE损失（Negative-aware InfoNCE, NegNCE），可自适应识别所有困难负样本，并在训练损失中显式强化其影响。其次，本文指出三元组样本相较于成对样本更能有效建模细粒度的语义相似性。为此，提出一种新型的三元组部分边界对比学习模块（Triplet Partial Margin Contrastive Learning, TPM-CL），该模块通过自动生成与匹配文本-视频对相关的细粒度困难负样本，构建部分顺序三元组样本。TPM-CL设计了一种具有跨模态交互机制的自适应标记掩码策略，以捕捉细微的语义差异。大量实验结果表明，所提出的模型在四个广泛使用的文本-视频检索数据集（包括MSR-VTT、MSVD、DiDeMo和ActivityNet）上均显著优于现有方法，验证了其有效性与优越性。