6 个月前

摘要

我们研究视频与语言（VL）联合预训练，以促进跨模态学习，并为众多下游VL任务带来收益。现有方法要么提取低质量的视频特征，要么仅学习有限的文本嵌入，而忽视了高分辨率视频与多样化语义在提升跨模态学习能力方面的显著潜力。本文提出一种新型的高分辨率与多样化视频-语言预训练模型（High-resolution and Diversified VIdeo-LAnguage pre-training model, HD-VILA），适用于多种视觉任务。具体而言，我们构建了一个具有两个显著特性的大规模数据集：1）首个高分辨率数据集，包含371.5万小时的720p视频；2）覆盖15个主流YouTube类别的最多样化数据集。为支持VL预训练，我们通过一种混合Transformer架构联合优化HD-VILA模型，该架构能够学习丰富的时空特征；同时引入多模态Transformer，强制学习到的视频特征与多样化文本之间进行有效交互。所提出的预训练模型在10项VL理解任务以及2项新型文本到视觉生成任务中均取得了新的最先进性能。例如，在零样本MSR-VTT文本到视频检索任务中，我们的方法相比现有最优模型在R@1指标上实现了40.4%的相对提升；在高分辨率数据集LSMDC上，相对提升达55.4%。此外，所学习的VL嵌入在文本到视觉编辑与超分辨率任务中，也能生成视觉上令人愉悦且语义相关性强的结果。

源 PDF