7 天前
基于掩码视觉建模的端到端视频-语言Transformer的实证研究
Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang, Zicheng Liu

摘要
掩码视觉建模(Masked Visual Modeling, MVM)近年来已被证明在视觉预训练中具有显著有效性。尽管在视频-语言(VidL)预训练中已对视频输入采用类似的重建目标(如掩码帧建模)进行了探索,但以往研究未能发现一种真正有效的MVM策略,以显著提升下游任务性能。在本工作中,我们系统性地考察了MVM在VidL学习场景中的潜力。具体而言,我们基于一个完全端到端的视频-语言Transformer模型——VIOLET(VIdeO-LanguagE Transformer),该模型能够将MVM训练所引入的监督信号反向传播至视频像素空间。我们共探索了八种不同的MVM重建目标,涵盖从低层像素值、方向梯度,到高层深度图、光流、离散视觉标记以及潜在视觉特征等多个层面。通过一系列全面的实验,我们深入分析了影响MVM训练有效性的关键因素,进而提出了性能增强的模型VIOLETv2。实验结果表明,使用MVM目标预训练的VIOLETv2在13个VidL基准任务上均取得显著提升,涵盖视频问答、视频字幕生成以及文本到视频检索等多种任务。