Latte 全球首个开源文生视频 DiT
Paper | Project Page
项目简介
随着 Sora 的成功发布,视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点,DiT 的成功为图像生成的规模化提供了可能性,Latte (Latent Diffusion Transformer for Video Generation) 是 2023 年 11 月开源的一种用于视频生成的创新模型,Latte 作为全世界首个开源文生视频 DiT,已经取得了很有前景的结果。
该教程为 Latte 项目的效果实现演示。
效果展示

使用教程
使用 Latte 进行自定义文本到视频的生成
1. 克隆容器并运行
2. 打开工作空间,设置文本 prompt
在左侧打开配置文件 home/Latte/configs/t2v/t2v_sample.yaml
,双击打开, 修改 text_prompt 下的文本,本文已经给出相关实例,如下图。修改完成后 ctrl+S
保存。

3. 生成视频
打开终端输入:cd Latte/
切换目录,
在终端输入:bash sample/t2v.sh
进行高清视频生成,等待程序运行结束后,通过左侧 Latte/sample_videos
目录下生成结果,t2v_0000-.mp4 为提示文本的总视频,其他 .mp4 文件为单个 prompt 所生成的视频。
注意:生成的视频无法子在容器中直接查看,需要右键点击文件下载视频至本地查看。
其他代码信息
Latte 推理代码
Latte 在四个标准视频生成数据集(即 FaceForensics 、 SkyTimelapse 、 UCF101 和 Taichi-HD)进行训练可以得到四个模型,每个模型会生成对应场景的 Video,下面进行操作讲解: 首先进入项目, 打开终端输入:cd Latte/
1. FaceForensics:人脸合成图像检测
在终端输入:bash sample/ffs.sh
进行人脸生成,在程序结束后,通过左侧 Latte/test_ffs
目录下查看生成结果。
注意:每次生成结果会覆盖前次结果。
2. SkyTimelapse:摄影的天空图像
在终端输入:bash sample/sky.sh
进行天空生成,在程序结束后,通过左侧 Latte/test_sky
目录下生成结果, 将其下载至本地查看。
3. UCF101:现实动作视频的动作识别
在终端输入:bash sample/ucf101.sh
进行现实动作生成,在程序结束后,通过左侧 Latte/test_UCF101
目录下生成结果, 将其下载至本地查看。
4. Taichi-HD;高清晰度视频生成
在终端输入:bash sample/taichi.sh
进行高清视频生成,在程序结束后,通过左侧 Latte/test_Taichi
目录下生成结果, 将其下载至本地查看。