2 个月前

VideoCLIP:用于零样本视频-文本理解的对比预训练

Xu, Hu ; Ghosh, Gargi ; Huang, Po-Yao ; Okhonko, Dmytro ; Aghajanyan, Armen ; Metze, Florian ; Zettlemoyer, Luke ; Feichtenhofer, Christoph
VideoCLIP:用于零样本视频-文本理解的对比预训练
摘要

我们介绍了VideoCLIP,这是一种对比学习方法,用于预训练一个统一模型,以实现零样本视频和文本理解,而无需在下游任务中使用任何标签。VideoCLIP通过对比时间上重叠的正向视频-文本对与从最近邻检索中获得的难负例来训练变压器模型。我们在一系列多样化的下游任务上的实验,包括序列级别的文本-视频检索、VideoQA(视频问答)、标记级别的动作定位以及动作分割,展示了最先进的性能,超越了先前的工作,在某些情况下甚至超过了监督方法。代码已发布在 https://github.com/pytorch/fairseq/tree/main/examples/MMPT。