摘要

我们介绍了VideoCLIP，这是一种对比学习方法，用于预训练一个统一模型，以实现零样本视频和文本理解，而无需在下游任务中使用任何标签。VideoCLIP通过对比时间上重叠的正向视频-文本对与从最近邻检索中获得的难负例来训练 Transformer 模型。我们在一系列多样化的下游任务上的实验，包括序列级别的文本-视频检索、VideoQA（视频问答）、标记级别的动作定位以及动作分割，展示了最先进的性能，超越了先前的工作，在某些情况下甚至超过了监督方法。代码已发布在 https://github.com/pytorch/fairseq/tree/main/examples/MMPT。

源 PDF 查看代码