8 天前

Make-A-Video：无需文本-视频数据的文本到视频生成

Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman

查看论文详情

摘要

我们提出 Make-A-Video——一种将文本到图像（Text-to-Image, T2I）生成领域近期取得的显著进展直接迁移至文本到视频（Text-to-Video, T2V）生成的新方法。其核心思想简单而有效：通过成对的文本-图像数据学习世界外观及其描述方式，再通过无监督的视频数据学习世界运动规律。Make-A-Video 具备三大优势：（1）显著加速 T2V 模型的训练过程（无需从零学习视觉与多模态表示）；（2）无需依赖成对的文本-视频数据；（3）生成的视频继承了当前图像生成模型所具备的广阔多样性，包括丰富的美学风格与奇幻视觉表现。我们设计了一种简洁而高效的方法，基于现有的 T2I 模型，引入新颖且有效的时空模块。首先，我们将完整的时序 U-Net 与注意力张量进行时空分解，并在空间与时间维度上分别进行近似处理；其次，我们构建了一个时空流水线，结合视频解码器、插值模型以及两个超分辨率模型，实现高分辨率、高帧率视频的生成，该架构不仅适用于 T2V 任务，还可拓展至多种其他应用。在空间与时间分辨率、文本忠实度以及生成质量等多个维度上，Make-A-Video 均通过定性与定量评估，达到了文本到视频生成领域的最新技术水平，树立了新的标杆。