9 天前
X-CLIP:面向视频-文本检索的端到端多粒度对比学习
Yiwei Ma, Guohai Xu, Xiaoshuai Sun, Ming Yan, Ji Zhang, Rongrong Ji

摘要
视频-文本检索是多模态研究中一项关键且基础性的任务。大规模多模态对比预训练的兴起显著推动了该任务的发展,现有方法主要聚焦于粗粒度或细粒度的对比学习。然而,跨粒度对比(即粗粒度表示与细粒度表示之间的对比)在以往研究中尚未得到充分探索。相较于仅关注粗粒度或细粒度的对比方式,跨粒度对比能够计算粗粒度特征与每个细粒度特征之间的相关性,并在相似性计算过程中,利用粗粒度特征引导过滤掉不必要的细粒度特征,从而提升检索的准确性。为此,本文提出一种新颖的多粒度对比模型——X-CLIP,用于视频-文本检索。然而,另一个关键挑战在于相似性聚合问题,即如何将细粒度相似性矩阵与跨粒度相似性矩阵有效融合,以获得实例级别的最终相似性得分。为解决该问题,我们设计了“相似性矩阵上的注意力机制”(Attention Over Similarity Matrix, AOSM)模块,使模型能够聚焦于关键帧与关键词之间的对比关系,从而降低无关帧或词语对检索结果的干扰。结合多粒度对比机制与所提出的AOSM模块,X-CLIP在五个广泛使用的视频-文本检索数据集上均取得了卓越性能,具体表现为:MSR-VTT(R@1: 49.3)、MSVD(R@1: 50.4)、LSMDC(R@1: 26.1)、DiDeMo(R@1: 47.8)和ActivityNet(R@1: 46.2)。相较于此前的最先进方法,X-CLIP在上述基准上分别实现了+6.3%、+6.6%、+11.1%、+6.7%和+3.8%的相对性能提升,充分验证了多粒度对比机制与AOSM模块的有效性与优越性。