HyperAIHyperAI

Command Palette

Search for a command to run...

VideoCLIP:用于零样本视频-文本理解的对比预训练

Hu Xu Gargi Ghosh Po-Yao Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Christoph Feichtenhofer

摘要

我们介绍了VideoCLIP,这是一种对比学习方法,用于预训练一个统一模型,以实现零样本视频和文本理解,而无需在下游任务中使用任何标签。VideoCLIP通过对比时间上重叠的正向视频-文本对与从最近邻检索中获得的难负例来训练 Transformer 模型。我们在一系列多样化的下游任务上的实验,包括序列级别的文本-视频检索、VideoQA(视频问答)、标记级别的动作定位以及动作分割,展示了最先进的性能,超越了先前的工作,在某些情况下甚至超过了监督方法。代码已发布在 https://github.com/pytorch/fairseq/tree/main/examples/MMPT


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供