8 天前
VideoFusion:用于高质量视频生成的分解扩散模型
Zhengxiong Luo, Dayou Chen, Yingya Zhang, Yan Huang, Liang Wang, Yujun Shen, Deli Zhao, Jingren Zhou, Tieniu Tan

摘要
扩散概率模型(Diffusion Probabilistic Model, DPM)通过逐步向数据点添加噪声构建前向扩散过程,并学习反向去噪过程以生成新样本,已被证明能够有效处理复杂的数据分布。尽管该模型在图像合成任务中取得了显著成功,但将其应用于视频生成仍面临挑战,主要源于视频数据的高维特性。以往的方法通常采用标准扩散过程,即同一视频片段中的各帧独立地被添加噪声,这一做法忽略了视频内容中的冗余性以及帧间的时间相关性。本文提出一种分解式扩散过程,将每帧的噪声分解为两类:一种是所有帧共享的基底噪声(base noise),另一种是随时间轴变化的残差噪声(residual noise)。相应的去噪流程采用两个联合训练的神经网络,以分别匹配上述噪声分解结构。在多个数据集上的实验结果表明,所提出的名为VideoFusion的方法,在高质量视频生成任务中显著优于基于生成对抗网络(GAN)和传统扩散模型的现有方法。此外,我们进一步证明,该分解式建模框架能够有效利用预训练的图像扩散模型,并支持文本条件下的视频生成任务,展现出良好的可扩展性与实用性。