7 天前

MCVD：用于预测、生成与插值的掩码条件视频扩散模型

Vikram Voleti, Alexia Jolicoeur-Martineau, Christopher Pal

摘要

视频预测是一项具有挑战性的任务。当前最先进的生成模型所生成的视频帧质量普遍较低，且在训练数据之外的泛化能力较差。此外，现有的预测框架通常无法同时处理其他视频相关任务，例如无条件生成或视频插值。在本工作中，我们提出了一种通用型框架——掩码条件视频扩散模型（Masked Conditional Video Diffusion, MCVD），该框架基于概率性条件得分驱动的去噪扩散模型，以过去和/或未来帧作为条件，统一处理各类视频合成任务。我们采用一种新颖而简洁的训练方式：随机且独立地掩码所有过去帧或所有未来帧。这一设计使得仅需训练一个模型，即可完成多种视频任务，具体包括：未来/过去帧预测（仅掩码未来/过去帧）、无条件生成（同时掩码过去和未来帧），以及插值（不掩码任何过去或未来帧）。实验结果表明，该方法能够为多种类型的视频生成高质量帧。我们的MCVD模型基于简单的非循环2D卷积架构，以帧块为单位进行条件输入并生成帧块，采用分块自回归方式生成任意长度的视频。该方法在标准视频预测与插值基准测试中均取得了当前最优（SOTA）性能，模型训练时间仅为1至12天，且仅需不超过4块GPU。项目主页：https://mask-cond-video-diffusion.github.io；代码地址：https://github.com/voletiv/mcvd-pytorch。