17 天前

CLIP2TV:对齐、匹配与蒸馏用于视频-文本检索

Zijian Gao, Jingyu Liu, Weiqi Sun, Sheng Chen, Dedan Chang, Lili Zhao
CLIP2TV:对齐、匹配与蒸馏用于视频-文本检索
摘要

当前的视频-文本检索框架通常由三部分构成:视频编码器、文本编码器以及相似度判别头。随着视觉与文本表征学习的不断进步,基于Transformer的编码器及其融合方法也逐渐被引入视频-文本检索领域。本报告提出CLIP2TV,旨在探究基于Transformer的方法中关键要素所在。为此,我们首先回顾了多模态学习领域的一些最新研究工作,随后将其中若干关键技术引入视频-文本检索任务,并在多种配置下通过大量实验进行评估。值得注意的是,CLIP2TV在MSR-VTT数据集上取得了52.9@R1的性能,相较于此前的最先进结果提升了4.1%。