9 天前

通过多流语料对齐与双Softmax损失提升视频-文本检索

Xing Cheng, Hezheng Lin, Xiangyu Wu, Fan Yang, Dong Shen
通过多流语料对齐与双Softmax损失提升视频-文本检索
摘要

将大规模预训练模型CLIP应用于视频-文本检索任务(Video-Text Retrieval, VTR)已成为当前的新趋势,其性能已超越以往的VTR方法。然而,由于视频与文本在结构和内容上存在显著异质性,基于CLIP的现有方法在训练阶段容易出现过拟合问题,导致检索性能相对欠佳。为此,本文提出一种多流语料对齐网络——单门控专家混合模型(Multi-stream Corpus Alignment network with Single-gate Mixture-of-Experts, CAMoE),并设计了一种新型双Softmax损失函数(Dual Softmax Loss, DSL),以有效应对上述两类异质性问题。CAMoE采用专家混合(Mixture-of-Experts, MoE)机制,从多个视角提取视频的表征,涵盖动作、实体、场景等不同维度,随后将其与文本中对应的语义部分进行对齐。在该阶段,我们对特征提取模块与特征对齐模块进行了大规模探索与优化。DSL损失函数旨在避免传统对比学习方法中存在的“单向最优匹配”问题。通过引入批次内每对样本的内在先验信息,DSL作为相似性矩阵的修正器,实现双向最优匹配,显著提升匹配质量。该损失函数实现极为简便,仅需一行代码即可集成,但性能提升显著。实验结果表明,所提出的CAMoE与DSL均具备强大的有效性,二者各自在MSR-VTT、MSVD和LSMDC等多个基准数据集上均能达到当前最优(State-of-the-Art, SOTA)水平。进一步地,当两者协同使用时,性能获得大幅提升,在MSR-VTT数据集上,R@1指标相较此前SOTA方法提升约4.6%。