7 天前

MCVD:用于预测、生成与插值的掩码条件视频扩散模型

Vikram Voleti, Alexia Jolicoeur-Martineau, Christopher Pal
MCVD:用于预测、生成与插值的掩码条件视频扩散模型
摘要

视频预测是一项具有挑战性的任务。当前最先进的生成模型所生成的视频帧质量普遍较低,且在训练数据之外的泛化能力较差。此外,现有的预测框架通常无法同时处理其他视频相关任务,例如无条件生成或视频插值。在本工作中,我们提出了一种通用型框架——掩码条件视频扩散模型(Masked Conditional Video Diffusion, MCVD),该框架基于概率性条件得分驱动的去噪扩散模型,以过去和/或未来帧作为条件,统一处理各类视频合成任务。我们采用一种新颖而简洁的训练方式:随机且独立地掩码所有过去帧或所有未来帧。这一设计使得仅需训练一个模型,即可完成多种视频任务,具体包括:未来/过去帧预测(仅掩码未来/过去帧)、无条件生成(同时掩码过去和未来帧),以及插值(不掩码任何过去或未来帧)。实验结果表明,该方法能够为多种类型的视频生成高质量帧。我们的MCVD模型基于简单的非循环2D卷积架构,以帧块为单位进行条件输入并生成帧块,采用分块自回归方式生成任意长度的视频。该方法在标准视频预测与插值基准测试中均取得了当前最优(SOTA)性能,模型训练时间仅为1至12天,且仅需不超过4块GPU。项目主页:https://mask-cond-video-diffusion.github.io;代码地址:https://github.com/voletiv/mcvd-pytorch。

MCVD:用于预测、生成与插值的掩码条件视频扩散模型 | 最新论文 | HyperAI超神经