17 天前
Snap Video:用于文本到视频生成的规模化时空Transformer
Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci, Jian Ren, Sergey Tulyakov

摘要
当前用于图像生成的模型展现出卓越的质量与泛化能力。受其优势的启发,研究界正尝试将这些模型迁移用于视频生成。然而,由于视频内容具有高度冗余性,我们指出,若简单地将图像生成领域的进展直接应用于视频生成,将导致运动保真度下降、视觉质量降低,并严重损害模型的可扩展性。为此,本文提出了一种以视频为核心的模型——Snap Video,系统性地解决了上述挑战。首先,我们扩展了EDM(Noise Conditioning Diffusion Model)框架,使其能够有效处理空间与时间维度上的冗余像素,从而自然支持视频生成任务。其次,我们发现,作为图像生成核心组件的U-Net架构在生成视频时扩展性较差,需要巨大的计算开销。因此,我们提出了一种基于Transformer的新架构,其训练速度比U-Net快3.31倍(推理速度提升约4.5倍)。这一改进使我们首次能够高效训练参数量达数十亿的文本到视频生成模型,在多个基准测试中达到当前最优性能,并生成具有显著更高视觉质量、更强时间一致性以及更复杂运动表现的视频。用户评估实验表明,与最新方法相比,我们的模型在主观评价中获得了压倒性优势。更多信息请访问项目主页:https://snap-research.github.io/snapvideo/。