7 天前

基于掩码视觉建模的端到端视频-语言Transformer的实证研究

Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang, Zicheng Liu

摘要

掩码视觉建模（Masked Visual Modeling, MVM）近年来已被证明在视觉预训练中具有显著有效性。尽管在视频-语言（VidL）预训练中已对视频输入采用类似的重建目标（如掩码帧建模）进行了探索，但以往研究未能发现一种真正有效的MVM策略，以显著提升下游任务性能。在本工作中，我们系统性地考察了MVM在VidL学习场景中的潜力。具体而言，我们基于一个完全端到端的视频-语言Transformer模型——VIOLET（VIdeO-LanguagE Transformer），该模型能够将MVM训练所引入的监督信号反向传播至视频像素空间。我们共探索了八种不同的MVM重建目标，涵盖从低层像素值、方向梯度，到高层深度图、光流、离散视觉标记以及潜在视觉特征等多个层面。通过一系列全面的实验，我们深入分析了影响MVM训练有效性的关键因素，进而提出了性能增强的模型VIOLETv2。实验结果表明，使用MVM目标预训练的VIOLETv2在13个VidL基准任务上均取得显著提升，涵盖视频问答、视频字幕生成以及文本到视频检索等多种任务。