
摘要
现有的视频与语言预训练框架普遍缺乏生成句子的能力。为此,我们提出了多模态视频生成预训练(Multimodal Video Generative Pretraining, MV-GPT),这是一种全新的无标签视频预训练框架,能够有效应用于生成任务,如多模态视频字幕生成。与近期的视频-语言预训练框架不同,我们的方法联合训练一个具备多模态视频编码能力的编码器和一个句子解码器。为解决无标签视频中缺乏字幕的问题,我们引入未来语音作为额外的文本来源,并提出一种双向生成目标:在给定当前多模态上下文的前提下生成未来的语音内容,同时在给定未来观测信息的前提下重建当前的语音内容。通过这一目标,我们实现了端到端的编码器-解码器模型训练,直接从原始视频像素和转录语音中生成字幕。在四个标准基准数据集上,我们的模型在多模态视频字幕生成任务中取得了当前最优性能,并在其他视频理解任务(如视频问答 VideoQA、视频检索和动作分类)中也表现出色。