6 个月前

摘要

当前的视频-文本检索框架通常由三部分构成：视频编码器、文本编码器以及相似度判别头。随着视觉与文本表征学习的不断进步，基于Transformer的编码器及其融合方法也逐渐被引入视频-文本检索领域。本报告提出CLIP2TV，旨在探究基于Transformer的方法中关键要素所在。为此，我们首先回顾了多模态学习领域的一些最新研究工作，随后将其中若干关键技术引入视频-文本检索任务，并在多种配置下通过大量实验进行评估。值得注意的是，CLIP2TV在MSR-VTT数据集上取得了52.9@R1的性能，相较于此前的最先进结果提升了4.1%。

源 PDF