8 天前
Lumiere:一种用于视频生成的时空扩散模型
Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Guanghui Liu, Amit Raj, Yuanzhen Li, Michael Rubinstein, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri

摘要
我们提出Lumiere——一种文本到视频的扩散模型,旨在生成具有真实感、多样性和连贯性的运动视频,这正是视频合成领域的一项关键挑战。为此,我们设计了一种时空U-Net架构,能够通过模型的一次前向传播,一次性生成整个视频的时间序列。这与现有视频生成模型形成鲜明对比:后者通常先生成相隔较远的关键帧,再通过时间超分辨率逐步补全,这种分步策略本质上难以保证全局时间一致性。通过引入空间与(尤为重要的是)时间维度上的下采样与上采样机制,并结合预训练的文本到图像扩散模型,我们的模型能够在多尺度的时空空间中处理输入,从而直接生成全帧率、低分辨率的视频。实验结果表明,Lumiere在文本到视频生成任务中达到了当前最先进水平,并展现出强大的泛化能力,可轻松支持多种内容创作与视频编辑应用,包括图像到视频生成、视频修复(inpainting)以及风格化视频生成等。