7 天前

告诉我发生了什么:通过多模态掩码视频生成统一文本引导的视频补全

Tsu-Jui Fu, Licheng Yu, Ning Zhang, Cheng-Yang Fu, Jong-Chyi Su, William Yang Wang, Sean Bell
告诉我发生了什么:通过多模态掩码视频生成统一文本引导的视频补全
摘要

给定视频的前几帧生成完整视频是一项具有挑战性的任务,其核心在于需合理预测具有时间一致性的后续帧。除了视频预测外,从最后一帧回溯(rewind)或在视频首尾之间进行内容补全(infilling)同样至关重要,但这些能力在视频补全领域仍鲜有研究。由于仅凭少数帧提供的线索可能对应多种不同的未来结果,若系统能够根据自然语言指令执行视频补全,将显著提升生成过程的可控性。受此启发,我们提出了一项新任务——文本引导的视频补全(Text-guided Video Completion, TVC),该任务要求模型在自然语言指令的引导下,从部分帧中生成完整的视频序列。为此,我们进一步提出了多模态掩码视频生成(Multimodal Masked Video Generation, MMVG)方法,以应对TVC任务。在训练阶段,MMVG将视频帧离散化为视觉令牌(visual tokens),并随机掩码大部分帧,从而实现从任意时间点出发的视频补全。在推理阶段,仅需一个统一的MMVG模型,通过施加不同的掩码策略,即可同时处理TVC任务中的三种情形:视频预测、视频回溯和中间内容补全。我们在多种视频场景下对MMVG进行了评估,涵盖第一人称视角(egocentric)、动画和游戏视频等类型。大量实验结果表明,MMVG在文本引导下能够有效生成具有高质量视觉表现的视频内容,充分验证了其在视频补全任务中的有效性与通用性。

告诉我发生了什么:通过多模态掩码视频生成统一文本引导的视频补全 | 最新论文 | HyperAI超神经