16 天前

Show-1:融合像素空间与潜在扩散模型的文本到视频生成

Zhang, David Junhao, Wu, Jay Zhangjie, Liu, Jia-Wei, Zhao, Rui, Ran, Lingmin, Gu, Yuchao, Gao, Difei, Shou, Mike Zheng
Show-1:融合像素空间与潜在扩散模型的文本到视频生成
摘要

在大规模预训练文本到视频扩散模型(Text-to-Video Diffusion Models, VDMs)领域,已取得显著进展。然而,以往的方法要么仅依赖基于像素的VDM,导致计算成本高昂;要么依赖基于潜在空间的VDM,往往难以实现精确的文本-视频对齐。本文首次提出一种混合模型——Show-1,该模型创新性地融合了基于像素和基于潜在空间的VDM,用于文本到视频生成任务。具体而言,我们的模型首先利用基于像素的VDM生成具有强文本-视频关联性的低分辨率视频。随后,提出一种新颖的专家转换(expert translation)方法,通过潜在空间VDM对低分辨率视频进行进一步上采样至高分辨率,同时有效消除低分辨率视频中可能存在的伪影和失真。与仅使用潜在空间VDM的方法相比,Show-1能够生成在文本-视频对齐精度和视觉质量方面均更优的视频;与基于像素的VDM相比,Show-1在推理阶段显著提升效率,GPU显存占用仅为15GB,远低于后者72GB。此外,通过简单的时序注意力层微调,Show-1模型可轻松拓展至动作定制(motion customization)与视频风格化(video stylization)等应用。在标准视频生成基准测试中,Show-1取得了当前最优的性能表现。相关代码与模型权重已公开发布于:https://github.com/showlab/Show-1。

Show-1:融合像素空间与潜在扩散模型的文本到视频生成 | 最新论文 | HyperAI超神经