8 天前
Make-A-Video:无需文本-视频数据的文本到视频生成
Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman

摘要
我们提出 Make-A-Video——一种将文本到图像(Text-to-Image, T2I)生成领域近期取得的显著进展直接迁移至文本到视频(Text-to-Video, T2V)生成的新方法。其核心思想简单而有效:通过成对的文本-图像数据学习世界外观及其描述方式,再通过无监督的视频数据学习世界运动规律。Make-A-Video 具备三大优势:(1)显著加速 T2V 模型的训练过程(无需从零学习视觉与多模态表示);(2)无需依赖成对的文本-视频数据;(3)生成的视频继承了当前图像生成模型所具备的广阔多样性,包括丰富的美学风格与奇幻视觉表现。我们设计了一种简洁而高效的方法,基于现有的 T2I 模型,引入新颖且有效的时空模块。首先,我们将完整的时序 U-Net 与注意力张量进行时空分解,并在空间与时间维度上分别进行近似处理;其次,我们构建了一个时空流水线,结合视频解码器、插值模型以及两个超分辨率模型,实现高分辨率、高帧率视频的生成,该架构不仅适用于 T2V 任务,还可拓展至多种其他应用。在空间与时间分辨率、文本忠实度以及生成质量等多个维度上,Make-A-Video 均通过定性与定量评估,达到了文本到视频生成领域的最新技术水平,树立了新的标杆。