11 天前
对齐你的潜在表示:基于潜在扩散模型的高分辨率视频合成
Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, Karsten Kreis

摘要
潜在扩散模型(Latent Diffusion Models, LDMs)通过在低维压缩的潜在空间中训练扩散模型,实现了高质量图像生成,同时避免了过度的计算开销。本文将LDM范式应用于高分辨率视频生成这一计算资源需求极高的任务。我们首先仅基于图像数据对LDM进行预训练;随后,通过向潜在空间扩散模型引入时间维度,并在编码后的图像序列(即视频)上进行微调,将图像生成器转化为视频生成器。类似地,我们对扩散模型的上采样器进行时间对齐,使其转变为具有时间一致性的视频超分辨率模型。本研究聚焦于两个实际应用场景:真实场景下驾驶数据的模拟生成,以及基于文本到视频建模的创意内容创作。特别地,我们在分辨率为512×1024的真实驾驶视频数据上验证了所提出的Video LDM,取得了当前最先进的性能表现。此外,我们的方法能够轻松复用现成的预训练图像LDM,因为在该情况下仅需训练一个时间对齐模块即可。基于此,我们将公开可用的、当前最先进的文本到图像LDM——Stable Diffusion,成功转化为一个高效且富有表现力的文本到视频生成模型,支持最高达1280×2048分辨率的输出。我们进一步证明,通过该方式训练的时间层具有良好的泛化能力,可适用于不同微调后的文本到图像LDM。利用这一特性,我们首次实现了个性化文本到视频生成的结果,为未来内容创作开辟了令人振奋的新方向。项目主页:https://research.nvidia.com/labs/toronto-ai/VideoLDM/