HyperAIHyperAI

Command Palette

Search for a command to run...

VideoCoCa:基于对比描述生成模型的零样本迁移视频-文本建模

Shen Yan Tao Zhu Zirui Wang Yuan Cao Mi Zhang Soham Ghosh Yonghui Wu Jiahui Yu

摘要

我们提出了一种高效构建基础视频-文本模型的方法。本文介绍了VideoCoCa,该模型最大限度地复用了预训练的图像-文本对比生成模型(CoCa),并通过极少的额外训练即可将其适配至视频-文本任务。与以往工作通过引入多种跨帧融合模块来改造图像-文本模型不同,我们发现CoCa中的生成式注意力池化(generative attentional pooling)和对比式注意力池化(contrastive attentional pooling)层可直接应用于展平后的帧嵌入表示,从而在零样本视频分类和零样本文本到视频检索任务上取得了当前最优性能。此外,我们在VideoCoCa的基础上进一步探索了轻量级微调策略,在视频问答和视频字幕生成任务上也取得了优异的结果。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供