7 天前
VindLU:高效视频与语言预训练的配方
Feng Cheng, Xizi Wang, Jie Lei, David Crandall, Mohit Bansal, Gedas Bertasius

摘要
近年来,视频与语言(VidL)理解领域取得了显著进展。然而,大多数现有的VidL方法依赖于复杂且专门设计的模型架构,以及精巧的预训练策略,这使得这些框架的可复现性、分析与比较变得极为困难。因此,本文并未提出一种全新的VidL模型,而是开展了一项系统性的实证研究,旨在揭示VidL模型设计中最为关键的影响因素。我们重点考察了以下六个方面:(i)时空架构设计,(ii)多模态融合策略,(iii)预训练目标函数,(iv)预训练数据的选择,(v)预训练与微调协议,以及(vi)数据集与模型规模的扩展。实证研究结果表明,决定性能的关键设计因素主要包括:时间建模能力、视频到文本的多模态融合机制、掩码建模类预训练目标,以及图像与视频的联合训练策略。基于上述实证发现,我们提出了一套逐步递进的预训练方法,命名为VindLU,用于高效实现VidL模型的预训练。使用该方法训练的最终模型,在多个VidL任务上取得了与当前最先进水平相当甚至更优的性能,且无需依赖外部CLIP模型进行预训练。具体而言,在文本到视频检索任务中,我们的方法在DiDeMo数据集上达到61.2%的准确率,在ActivityNet数据集上达到55.0%,分别优于当前最先进水平7.8%和6.1%。此外,我们的模型在ActivityNet-QA、MSRVTT-QA、MSRVTT-MC和TVQA等多个视频问答任务上也取得了当前最优的性能。相关代码与预训练模型已公开发布于:https://github.com/klauscc/VindLU。