HyperAIHyperAI

Command Palette

Search for a command to run...

SimVTP:基于掩码自编码器的简单视频文本预训练

Yue Ma Tianyu Yang Yin Shan Xiu Li

摘要

本文提出了一种基于掩码自编码器的简单视频-文本预训练框架——SimVTP。该方法随机掩码输入视频的空间-时间体(spatial-temporal tubes)以及输入文本的词元(word tokens),并将掩码后的视频与文本输入统一的自编码器中,以重建缺失的像素和词元。SimVTP具有以下几项特性:1)得益于统一的自编码器结构,SimVTP在重建某一模态的掩码信号时,可借助另一模态的上下文信息,从而隐式地学习视频体(video tubes)与文本词元之间的跨模态对齐关系。2)由于视频具有显著的时间冗余性,SimVTP在高视频掩码率(例如90%)下仍能保持良好性能;同时,为达到最优效果,还需采用较高的文本掩码率(例如75%),远高于BERT的典型掩码率(如15%)。这是因为视频模态的辅助降低了文本重建的难度,因此需要更高的掩码比例以提升预训练任务的挑战性,从而促进更具价值的特征学习。3)在SimVTP基础上引入常用的跨模态训练策略——视频-文本对比学习(Video-Text Contrastive Learning, VTC)和视频-文本匹配(Video-Text Matching, VTM),可显著提升模型的可迁移性能。4)SimVTP具有优异的数据效率:仅在WebVid-2M数据集的10%数据上进行预训练,SimVTP在MSRVTT基准上即取得了43.8 R@1的优异结果,远超当前基于CC3M与WebVid-2M联合预训练的先进方法。我们将预训练模型迁移至多种下游任务,并取得了卓越的性能表现。相关代码与模型将开源发布于:https://github.com/mayuelala/SimVTP


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供