随着 Sora 的成功发布,视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点,DiT 的成功为图像生成的规模化提供了可能性,Latte (Latent Diffusion Transformer for Video Generation) 是 2023 年 11 月开源的一种用于视频生成的创新模型,Latte 作为全世界首个开源文生视频 DiT,已经取得了很有前景的结果。
该教程为 Latte 项目的效果实现演示。
1. 克隆容器并运行
2. 打开工作空间,设置文本 prompt
在左侧打开配置文件 home/Latte/configs/t2v/t2v_sample.yaml
,双击打开, 修改 text_prompt 下的文本,本文已经给出相关实例,如下图。修改完成后 ctrl+S
保存。
3. 生成视频
打开终端输入:cd Latte/
切换目录,
在终端输入:bash sample/t2v.sh
进行高清视频生成,等待程序运行结束后,通过左侧 Latte/sample_videos
目录下生成结果,t2v_0000-.mp4 为提示文本的总视频,其他 .mp4 文件为单个 prompt 所生成的视频。
Latte 在四个标准视频生成数据集(即 FaceForensics 、 SkyTimelapse 、 UCF101 和 Taichi-HD)进行训练可以得到四个模型,每个模型会生成对应场景的 Video,下面进行操作讲解: 首先进入项目, 打开终端输入:cd Latte/
在终端输入:bash sample/ffs.sh
进行人脸生成,在程序结束后,通过左侧 Latte/test_ffs
目录下查看生成结果。
在终端输入:bash sample/sky.sh
进行天空生成,在程序结束后,通过左侧 Latte/test_sky
目录下生成结果, 将其下载至本地查看。
在终端输入:bash sample/ucf101.sh
进行现实动作生成,在程序结束后,通过左侧 Latte/test_UCF101
目录下生成结果, 将其下载至本地查看。
在终端输入:bash sample/taichi.sh
进行高清视频生成,在程序结束后,通过左侧 Latte/test_Taichi
目录下生成结果, 将其下载至本地查看。