6 个月前

摘要

给定视频的前几帧生成完整视频是一项具有挑战性的任务，其核心在于需合理预测具有时间一致性的后续帧。除了视频预测外，从最后一帧回溯（rewind）或在视频首尾之间进行内容补全（infilling）同样至关重要，但这些能力在视频补全领域仍鲜有研究。由于仅凭少数帧提供的线索可能对应多种不同的未来结果，若系统能够根据自然语言指令执行视频补全，将显著提升生成过程的可控性。受此启发，我们提出了一项新任务——文本引导的视频补全（Text-guided Video Completion, TVC），该任务要求模型在自然语言指令的引导下，从部分帧中生成完整的视频序列。为此，我们进一步提出了多模态掩码视频生成（Multimodal Masked Video Generation, MMVG）方法，以应对TVC任务。在训练阶段，MMVG将视频帧离散化为视觉令牌（visual tokens），并随机掩码大部分帧，从而实现从任意时间点出发的视频补全。在推理阶段，仅需一个统一的MMVG模型，通过施加不同的掩码策略，即可同时处理TVC任务中的三种情形：视频预测、视频回溯和中间内容补全。我们在多种视频场景下对MMVG进行了评估，涵盖第一人称视角（egocentric）、动画和游戏视频等类型。大量实验结果表明，MMVG在文本引导下能够有效生成具有高质量视觉表现的视频内容，充分验证了其在视频补全任务中的有效性与通用性。

源 PDF