Latte 全球首个开源文生视频 DiT

Paper | Project Page

项目简介

随着 Sora 的成功发布,视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点,DiT 的成功为图像生成的规模化提供了可能性,Latte (Latent Diffusion Transformer for Video Generation) 是 2023 年 11 月开源的一种用于视频生成的创新模型,Latte 作为全世界首个开源文生视频 DiT,已经取得了很有前景的结果。

该教程为 Latte 项目的效果实现演示。

效果展示

1

使用教程

使用 Latte 进行自定义文本到视频的生成

1. 克隆容器并运行

2. 打开工作空间,设置文本 prompt

在左侧打开配置文件 home/Latte/configs/t2v/t2v_sample.yaml,双击打开, 修改 text_prompt 下的文本,本文已经给出相关实例,如下图。修改完成后 ctrl+S  保存。

2

3. 生成视频

打开终端输入:cd Latte/  切换目录,

在终端输入:bash sample/t2v.sh  进行高清视频生成,等待程序运行结束后,通过左侧 Latte/sample_videos  目录下生成结果,t2v_0000-.mp4 为提示文本的总视频,其他 .mp4 文件为单个 prompt 所生成的视频。

注意:生成的视频无法子在容器中直接查看,需要右键点击文件下载视频至本地查看。

其他代码信息

Latte 推理代码

Latte 在四个标准视频生成数据集(即 FaceForensics 、 SkyTimelapse 、 UCF101 和 Taichi-HD)进行训练可以得到四个模型,每个模型会生成对应场景的 Video,下面进行操作讲解: 首先进入项目, 打开终端输入:cd Latte/

1. FaceForensics:人脸合成图像检测

在终端输入:bash sample/ffs.sh

进行人脸生成,在程序结束后,通过左侧 Latte/test_ffs 目录下查看生成结果。

注意:每次生成结果会覆盖前次结果。

2. SkyTimelapse:摄影的天空图像

在终端输入:bash sample/sky.sh

进行天空生成,在程序结束后,通过左侧 Latte/test_sky 目录下生成结果, 将其下载至本地查看。

3. UCF101:现实动作视频的动作识别

在终端输入:bash sample/ucf101.sh

进行现实动作生成,在程序结束后,通过左侧 Latte/test_UCF101  目录下生成结果, 将其下载至本地查看。

4. Taichi-HD;高清晰度视频生成

在终端输入:bash sample/taichi.sh

进行高清视频生成,在程序结束后,通过左侧 Latte/test_Taichi  目录下生成结果, 将其下载至本地查看。