8 天前

VLM：面向视频理解的无任务特定视频-语言模型预训练

Hu Xu, Gargi Ghosh, Po-Yao Huang, Prahal Arora, Masoumeh Aminzadeh, Christoph Feichtenhofer, Florian Metze, Luke Zettlemoyer

查看论文详情

摘要

我们提出了一种简化的、任务无关的多模态预训练方法，能够接受视频输入、文本输入，或两者同时输入，适用于多种下游任务。现有预训练方法通常具有任务特异性：一类采用单一跨模态编码器，要求同时输入两种模态，限制了其在检索类任务中的应用；另一类则采用两个单模态编码器进行更复杂的多任务学习，但导致跨模态融合较早发生，灵活性受限。相比之下，我们引入了新型的预训练掩码机制，能够更有效地在模态间进行混合（例如，强制对文本进行掩码以预测最接近的视频嵌入），同时保持模态间的可分离性（例如，在某些情况下仅需单模态预测，而不依赖全部输入）。实验结果表明，该方法在比以往方法更广泛的下游任务上均表现出色，性能常优于特定任务的预训练模型。代码已开源，地址为：https://github.com/pytorch/fairseq/tree/main/examples/MMPT。