7 天前
Imagen Video:基于扩散模型的高清视频生成
Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang, Ruiqi Gao, Alexey Gritsenko, Diederik P. Kingma, Ben Poole, Mohammad Norouzi, David J. Fleet, Tim Salimans

摘要
我们提出 Imagen Video,这是一个基于级联视频扩散模型的文本条件视频生成系统。给定一段文本提示,Imagen Video 通过一个基础视频生成模型,以及一系列交替进行的空间与时间视频超分辨率模型,生成高分辨率视频。我们详细阐述了该系统作为高分辨率文本到视频模型的扩展方法,包括在特定分辨率下选择全卷积结构的时间与空间超分辨率模型,以及采用扩散模型的 v-参数化形式等设计决策。此外,我们将先前基于扩散模型的图像生成研究中的成果与发现成功迁移至视频生成场景。最后,我们采用渐进式蒸馏(progressive distillation)技术结合无分类器引导(classifier-free guidance),实现了快速且高质量的采样。实验表明,Imagen Video 不仅能够生成高保真度的视频,还具备高度的可控性与世界知识理解能力,能够生成风格多样的视频内容与文本动画,并支持多种艺术风格表达,同时具备对三维物体的感知理解能力。更多示例请见:https://imagen.research.google/video/。