7 天前
OmniVL:面向图像-语言与视频-语言任务的统一基础模型
Junke Wang, Dongdong Chen, Zuxuan Wu, Chong Luo, Luowei Zhou, Yucheng Zhao, Yujia Xie, Ce Liu, Yu-Gang Jiang, Lu Yuan

摘要
本文提出OmniVL,一种新型的基础模型,采用统一的架构同时支持图像-语言与视频-语言任务。该模型采用基于Transformer的统一视觉编码器处理图像与视频输入,从而实现图像-语言与视频-语言任务的联合预训练。我们首次证明,这种双向协同的预训练范式相较于传统的单向迁移(如利用图像-语言模型辅助视频-语言任务)能够同时提升图像与视频任务的性能。为此,我们提出一种解耦的联合预训练方法,有效将视觉-语言建模分解为空间与时间两个维度,显著提升了图像与视频任务的性能表现。此外,我们引入一种新颖的统一视觉-语言对比损失(UniVLC),能够联合利用图像-文本、视频-文本、图像标签(如图像分类)及视频标签(如视频动作识别)等多种数据,最大限度地融合有监督与弱监督预训练数据。OmniVL无需额外的任务特定适配器,即可同时支持仅视觉任务(如图像分类、视频动作识别)、跨模态对齐任务(如图像/视频-文本检索)以及多模态理解与生成任务(如图像/视频问答、图文生成)。我们在大量下游任务上对OmniVL进行了评估,结果表明,在模型规模与数据规模相近的情况下,其性能达到或超过当前最先进水平。