17 天前

文本-视频检索中的解耦表征学习

Qiang Wang, Yanhao Zhang, Yun Zheng, Pan Pan, Xian-Sheng Hua

摘要

跨模态交互是文本-视频检索（Text-Video Retrieval, TVR）中的关键组成部分，然而目前对影响交互计算的不同因素如何影响性能的研究仍较为有限。本文首次对交互范式进行了深入分析，发现其计算过程可分解为两个核心部分：不同粒度下的交互内容，以及用于区分语义相同但模态不同的样本对的匹配函数。此外，我们观察到，采用单向量表示和隐式密集函数会显著限制模型的优化能力。基于上述发现，本文提出一种解耦框架，以捕捉序列化且分层的表示结构。首先，考虑到文本与视频输入天然具有的序列结构，我们设计了一种加权词元级交互（Weighted Token-wise Interaction, WTI）模块，用于解耦内容信息，并自适应地挖掘成对样本间的相关性。该交互机制能够为序列输入构建更优的解耦流形结构。其次，我们引入通道去相关正则化（Channel DeCorrelation Regularization, CDCR），以最小化对比向量各分量之间的冗余性，从而促进分层表示的学习。我们在多个基准数据集上验证了该解耦表示的有效性，实验结果表明，所提方法在MSR-VTT、MSVD、VATEX、LSMDC、ActivityNet和DiDeMo等多个数据集上的R@1指标上，分别显著超越CLIP4Clip达+2.9%、+3.1%、+7.9%、+2.3%、+2.8%和+6.5%。