HyperAIHyperAI

Command Palette

Search for a command to run...

VideoFusion:用于高质量视频生成的分解扩散模型

Zhengxiong Luo Dayou Chen Yingya Zhang Yan Huang Liang Wang Yujun Shen Deli Zhao Jingren Zhou Tieniu Tan

摘要

扩散概率模型(Diffusion Probabilistic Model, DPM)通过逐步向数据点添加噪声构建前向扩散过程,并学习反向去噪过程以生成新样本,已被证明能够有效处理复杂的数据分布。尽管该模型在图像合成任务中取得了显著成功,但将其应用于视频生成仍面临挑战,主要源于视频数据的高维特性。以往的方法通常采用标准扩散过程,即同一视频片段中的各帧独立地被添加噪声,这一做法忽略了视频内容中的冗余性以及帧间的时间相关性。本文提出一种分解式扩散过程,将每帧的噪声分解为两类:一种是所有帧共享的基底噪声(base noise),另一种是随时间轴变化的残差噪声(residual noise)。相应的去噪流程采用两个联合训练的神经网络,以分别匹配上述噪声分解结构。在多个数据集上的实验结果表明,所提出的名为VideoFusion的方法,在高质量视频生成任务中显著优于基于生成对抗网络(GAN)和传统扩散模型的现有方法。此外,我们进一步证明,该分解式建模框架能够有效利用预训练的图像扩散模型,并支持文本条件下的视频生成任务,展现出良好的可扩展性与实用性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VideoFusion:用于高质量视频生成的分解扩散模型 | 论文 | HyperAI超神经