HyperAI超神经

Paper | Project Page

项目简介

随着 Sora 的成功发布，视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点，DiT 的成功为图像生成的规模化提供了可能性，Latte (Latent Diffusion Transformer for Video Generation) 是 2023 年 11 月开源的一种用于视频生成的创新模型，Latte 作为全世界首个开源文生视频 DiT，已经取得了很有前景的结果。

该教程为 Latte 项目的效果实现演示。

效果展示

使用教程

使用 Latte 进行自定义文本到视频的生成

1. 克隆容器并运行

2. 打开工作空间，设置文本 prompt

在左侧打开配置文件 home/Latte/configs/t2v/t2v_sample.yaml，双击打开, 修改 text_prompt 下的文本，本文已经给出相关实例，如下图。修改完成后 ctrl+S 保存。

3. 生成视频

打开终端输入：cd Latte/ 切换目录，

在终端输入：bash sample/t2v.sh 进行高清视频生成，等待程序运行结束后，通过左侧 Latte/sample_videos 目录下生成结果,t2v_0000-.mp4 为提示文本的总视频，其他 .mp4 文件为单个 prompt 所生成的视频。

注意：生成的视频无法子在容器中直接查看，需要右键点击文件下载视频至本地查看。

其他代码信息

Latte 推理代码

Latte 在四个标准视频生成数据集（即 FaceForensics 、 SkyTimelapse 、 UCF101 和 Taichi-HD）进行训练可以得到四个模型，每个模型会生成对应场景的 Video，下面进行操作讲解：首先进入项目, 打开终端输入：cd Latte/

1. FaceForensics：人脸合成图像检测

在终端输入：bash sample/ffs.sh

进行人脸生成，在程序结束后，通过左侧 Latte/test_ffs 目录下查看生成结果。

注意：每次生成结果会覆盖前次结果。

2. SkyTimelapse：摄影的天空图像

在终端输入：bash sample/sky.sh

进行天空生成，在程序结束后，通过左侧 Latte/test_sky 目录下生成结果, 将其下载至本地查看。

3. UCF101：现实动作视频的动作识别

在终端输入：bash sample/ucf101.sh

进行现实动作生成，在程序结束后，通过左侧 Latte/test_UCF101 目录下生成结果, 将其下载至本地查看。

4. Taichi-HD；高清晰度视频生成

在终端输入：bash sample/taichi.sh

进行高清视频生成，在程序结束后，通过左侧 Latte/test_Taichi 目录下生成结果, 将其下载至本地查看。