8 天前

VideoFusion：用于高质量视频生成的分解扩散模型

Zhengxiong Luo, Dayou Chen, Yingya Zhang, Yan Huang, Liang Wang, Yujun Shen, Deli Zhao, Jingren Zhou, Tieniu Tan

摘要

扩散概率模型（Diffusion Probabilistic Model, DPM）通过逐步向数据点添加噪声构建前向扩散过程，并学习反向去噪过程以生成新样本，已被证明能够有效处理复杂的数据分布。尽管该模型在图像合成任务中取得了显著成功，但将其应用于视频生成仍面临挑战，主要源于视频数据的高维特性。以往的方法通常采用标准扩散过程，即同一视频片段中的各帧独立地被添加噪声，这一做法忽略了视频内容中的冗余性以及帧间的时间相关性。本文提出一种分解式扩散过程，将每帧的噪声分解为两类：一种是所有帧共享的基底噪声（base noise），另一种是随时间轴变化的残差噪声（residual noise）。相应的去噪流程采用两个联合训练的神经网络，以分别匹配上述噪声分解结构。在多个数据集上的实验结果表明，所提出的名为VideoFusion的方法，在高质量视频生成任务中显著优于基于生成对抗网络（GAN）和传统扩散模型的现有方法。此外，我们进一步证明，该分解式建模框架能够有效利用预训练的图像扩散模型，并支持文本条件下的视频生成任务，展现出良好的可扩展性与实用性。