2 个月前

VLAB:通过特征适应和融合增强视频语言预训练

Xingjian He; Sihan Chen; Fan Ma; Zhicheng Huang; Xiaojie Jin; Zikang Liu; Dongmei Fu; Yi Yang; Jing Liu; Jiashi Feng
VLAB:通过特征适应和融合增强视频语言预训练
摘要

大规模图像-文本对比预训练模型(如CLIP)已被证明能够有效学习高质量的多模态表示。然而,基于这些强大特征来学习视频-文本表示以应对一般视频多模态任务的研究相对较少。为了实现这一目标,我们提出了一种新的视频-文本预训练方法,称为VLAB:通过特征适配和融合进行视频语言预训练(Video Language pre-training by feature Adapting and Blending),该方法将CLIP的表示迁移到视频预训练任务中,并开发了统一的视频多模态模型,适用于广泛的视频-文本任务。具体而言,VLAB基于两个关键策略:特征适配和特征融合。在特征适配方面,我们引入了一个新的视频适配器模块,以解决CLIP在建模时间信息方面的不足,并扩展模型的能力,使其能够涵盖对比任务和生成任务。在特征融合方面,我们提出了一种端到端的训练方法,通过利用图像和视频特征的互补性进一步提升模型性能。我们通过在具有竞争力的视频多模态任务上进行大量实验验证了VLAB的有效性和通用性,包括视频文本检索、视频字幕生成和视频问答。值得注意的是,VLAB在MSRVTT、MSVD和TGIF数据集上的视频问答任务中显著优于其他方法,并创下了新的记录,分别达到了49.6%、61.0%和79.0%的准确率。代码和模型将对外发布。