17 天前

基于多模态时间对比学习的长视频-语言预训练

Yuchong Sun, Hongwei Xue, Ruihua Song, Bei Liu, Huan Yang, Jianlong Fu

摘要

大规模视频-语言预训练在视频-语言理解任务中已展现出显著的性能提升。然而，以往的研究主要聚焦于短时视频（即时长不超过30秒）与句子的联合建模，对长时视频-语言预训练的探索仍较为有限。直接从长时视频与文本段落中学习表示，有望为众多长时视频-语言理解任务带来益处。然而，由于建模长时序依赖关系的难度以及因帧数增加带来的巨大计算负担，这一方向面临严峻挑战。本文提出一种面向长时视频-语言预训练的模型——LF-VILA（Long-Form VIdeo-LAnguage pre-training model），并在基于现有公开数据集构建的大规模长时视频与段落数据集上进行训练。为高效捕捉丰富的时序动态，并在端到端框架下更精准地对齐视频与语言模态，LF-VILA引入两项创新设计：其一，提出多模态时序对比损失（Multimodal Temporal Contrastive, MTC），通过增强长时视频与段落之间的细粒度对齐，学习跨模态的时序关联；其二，设计分层时序窗口注意力机制（Hierarchical Temporal Window Attention, HTWA），在有效建模长距离依赖的同时，显著降低Transformer架构的计算开销。我们在七个下游长时视频-语言理解任务上对预训练的LF-VILA模型进行微调，涵盖段落到视频检索与长时视频问答任务，均取得了当前最优性能。具体而言，在ActivityNet段落到视频检索任务上，模型实现16.1%的相对性能提升；在How2QA任务上，相对提升达2.4%。相关代码、数据集及预训练模型已开源，地址为：https://github.com/microsoft/XPretrain。