16 天前

MagicVideo:基于潜在扩散模型的高效视频生成

Daquan Zhou, Weimin Wang, Hanshu Yan, Weiwei Lv, Yizhe Zhu, Jiashi Feng
MagicVideo:基于潜在扩散模型的高效视频生成
摘要

我们提出了一种基于潜在扩散模型的高效文本到视频生成框架——MagicVideo。该框架能够生成与给定文本描述高度一致的流畅视频片段。得益于一种新颖且高效的3D U-Net结构设计,以及在低维空间中建模视频分布的方法,MagicVideo 可在单张GPU卡上实现256×256分辨率视频片段的合成,其计算量(以FLOPs衡量)相比现有的视频扩散模型(Video Diffusion Models, VDM)减少了约64倍。具体而言,与现有方法直接在RGB空间中训练视频模型不同,我们采用预训练的变分自编码器(VAE)将视频片段映射至低维潜在空间,并通过扩散模型学习视频潜在码的分布特性。此外,为将图像任务中训练得到的U-Net去噪器适配至视频数据,我们引入了两项新设计:一种帧级轻量级适配器,用于实现图像到视频分布的平滑过渡;以及一种定向时序注意力模块,用于捕捉帧间的时间依赖关系。由此,我们能够充分利用文本到图像模型中卷积算子的丰富语义权重,显著加速视频生成模型的训练过程。为进一步改善生成视频中的像素抖动问题,我们还提出了一种新型VideoVAE自编码器,以实现更高质量的RGB重建。通过大量实验验证,MagicVideo能够生成高质量的视频片段,内容既可为真实场景,也可为虚构想象。更多示例请参见:\url{https://magicvideo.github.io/#}。

MagicVideo:基于潜在扩散模型的高效视频生成 | 最新论文 | HyperAI超神经