日期

2 年前

大小

300.1 MB

标签

Paper | Project Page

项目简介

随着 Sora 的成功发布，视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点，DiT 的成功为图像生成的规模化提供了可能性，Latte (Latent Diffusion Transformer for Video Generation) 是 2023 年 11 月开源的一种用于视频生成的创新模型，Latte 作为全世界首个开源文生视频 DiT，已经取得了很有前景的结果。

该教程为 Latte 项目的效果实现演示。

效果展示

使用教程

使用 Latte 进行自定义文本到视频的生成

1. 克隆容器并运行

2. 打开工作空间，设置文本 prompt

在左侧打开配置文件 home/Latte/configs/t2v/t2v_sample.yaml，双击打开, 修改 text_prompt 下的文本，本文已经给出相关实例，如下图。修改完成后 ctrl+S 保存。

3. 生成视频

打开终端输入：cd Latte/ 切换目录，

在终端输入：bash sample/t2v.sh 进行高清视频生成，等待程序运行结束后，通过左侧 Latte/sample_videos 目录下生成结果,t2v_0000-.mp4 为提示文本的总视频，其他 .mp4 文件为单个 prompt 所生成的视频。

注意：生成的视频无法子在容器中直接查看，需要右键点击文件下载视频至本地查看。

其他代码信息

Latte 推理代码

Latte 在四个标准视频生成数据集（即 FaceForensics 、 SkyTimelapse 、 UCF101 和 Taichi-HD）进行训练可以得到四个模型，每个模型会生成对应场景的 Video，下面进行操作讲解：首先进入项目, 打开终端输入：cd Latte/

1. FaceForensics：人脸合成图像检测

在终端输入：bash sample/ffs.sh

进行人脸生成，在程序结束后，通过左侧 Latte/test_ffs 目录下查看生成结果。

注意：每次生成结果会覆盖前次结果。

2. SkyTimelapse：摄影的天空图像

在终端输入：bash sample/sky.sh

进行天空生成，在程序结束后，通过左侧 Latte/test_sky 目录下生成结果, 将其下载至本地查看。

3. UCF101：现实动作视频的动作识别

在终端输入：bash sample/ucf101.sh

进行现实动作生成，在程序结束后，通过左侧 Latte/test_UCF101 目录下生成结果, 将其下载至本地查看。

4. Taichi-HD；高清晰度视频生成

在终端输入：bash sample/taichi.sh

进行高清视频生成，在程序结束后，通过左侧 Latte/test_Taichi 目录下生成结果, 将其下载至本地查看。

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

2 年前

大小

300.1 MB

标签

多模态

文生视频

Paper | Project Page

项目简介

该教程为 Latte 项目的效果实现演示。

效果展示

使用教程

使用 Latte 进行自定义文本到视频的生成

1. 克隆容器并运行

2. 打开工作空间，设置文本 prompt

在左侧打开配置文件 home/Latte/configs/t2v/t2v_sample.yaml，双击打开, 修改 text_prompt 下的文本，本文已经给出相关实例，如下图。修改完成后 ctrl+S 保存。

3. 生成视频

打开终端输入：cd Latte/ 切换目录，

注意：生成的视频无法子在容器中直接查看，需要右键点击文件下载视频至本地查看。

其他代码信息

Latte 推理代码

1. FaceForensics：人脸合成图像检测

在终端输入：bash sample/ffs.sh

进行人脸生成，在程序结束后，通过左侧 Latte/test_ffs 目录下查看生成结果。

注意：每次生成结果会覆盖前次结果。

2. SkyTimelapse：摄影的天空图像

在终端输入：bash sample/sky.sh

进行天空生成，在程序结束后，通过左侧 Latte/test_sky 目录下生成结果, 将其下载至本地查看。

3. UCF101：现实动作视频的动作识别

在终端输入：bash sample/ucf101.sh

进行现实动作生成，在程序结束后，通过左侧 Latte/test_UCF101 目录下生成结果, 将其下载至本地查看。

4. Taichi-HD；高清晰度视频生成

在终端输入：bash sample/taichi.sh

进行高清视频生成，在程序结束后，通过左侧 Latte/test_Taichi 目录下生成结果, 将其下载至本地查看。

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

2 年前

大小

300.1 MB

标签

多模态

文生视频

Paper | Project Page

项目简介

该教程为 Latte 项目的效果实现演示。

效果展示

使用教程

使用 Latte 进行自定义文本到视频的生成

1. 克隆容器并运行

2. 打开工作空间，设置文本 prompt

在左侧打开配置文件 home/Latte/configs/t2v/t2v_sample.yaml，双击打开, 修改 text_prompt 下的文本，本文已经给出相关实例，如下图。修改完成后 ctrl+S 保存。

3. 生成视频

打开终端输入：cd Latte/ 切换目录，

注意：生成的视频无法子在容器中直接查看，需要右键点击文件下载视频至本地查看。

其他代码信息

Latte 推理代码

1. FaceForensics：人脸合成图像检测

在终端输入：bash sample/ffs.sh

进行人脸生成，在程序结束后，通过左侧 Latte/test_ffs 目录下查看生成结果。

注意：每次生成结果会覆盖前次结果。

2. SkyTimelapse：摄影的天空图像

在终端输入：bash sample/sky.sh

进行天空生成，在程序结束后，通过左侧 Latte/test_sky 目录下生成结果, 将其下载至本地查看。

3. UCF101：现实动作视频的动作识别

在终端输入：bash sample/ucf101.sh

进行现实动作生成，在程序结束后，通过左侧 Latte/test_UCF101 目录下生成结果, 将其下载至本地查看。

4. Taichi-HD；高清晰度视频生成

在终端输入：bash sample/taichi.sh

进行高清视频生成，在程序结束后，通过左侧 Latte/test_Taichi 目录下生成结果, 将其下载至本地查看。

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

LongCat-Video：美团开源的 AI 视频生成模型

3 个月前

Krea-realtime-video：实时视频生成模型

2 个月前

SAM3：视觉分割模型

2 个月前

F5-E2 TTS 只需 3 秒克隆任何音色

2 个月前

HunyuanWorld-Mirror：3D 世界生成模型

2 个月前

一键部署 SmolLM3-3B-Model

2 个月前

Ovis-Image：高质量图像生成模型

2 个月前

SoulX-Podcast 面向多方言的播客级长文本语音生成

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Latte 全球首个开源文生视频 DiT

Paper | Project Page

项目简介

效果展示

使用教程

使用 Latte 进行自定义文本到视频的生成

注意：生成的视频无法子在容器中直接查看，需要右键点击文件下载视频至本地查看。

其他代码信息

Latte 推理代码

1. FaceForensics：人脸合成图像检测

注意：每次生成结果会覆盖前次结果。

2. SkyTimelapse：摄影的天空图像

3. UCF101：现实动作视频的动作识别

4. Taichi-HD；高清晰度视频生成

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Latte 全球首个开源文生视频 DiT

Paper | Project Page

项目简介

效果展示

使用教程

使用 Latte 进行自定义文本到视频的生成

注意：生成的视频无法子在容器中直接查看，需要右键点击文件下载视频至本地查看。

其他代码信息

Latte 推理代码

1. FaceForensics：人脸合成图像检测

注意：每次生成结果会覆盖前次结果。

2. SkyTimelapse：摄影的天空图像

3. UCF101：现实动作视频的动作识别

4. Taichi-HD；高清晰度视频生成

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

Krea-realtime-video：实时视频生成模型

SAM3：视觉分割模型

F5-E2 TTS 只需 3 秒克隆任何音色

HunyuanWorld-Mirror：3D 世界生成模型

一键部署 SmolLM3-3B-Model

Ovis-Image：高质量图像生成模型

SoulX-Podcast 面向多方言的播客级长文本语音生成

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Latte 全球首个开源文生视频 DiT

Paper | Project Page

项目简介

效果展示

使用教程

使用 Latte 进行自定义文本到视频的生成

注意：生成的视频无法子在容器中直接查看，需要右键点击文件下载视频至本地查看。

其他代码信息

Latte 推理代码

1. FaceForensics：人脸合成图像检测

注意：每次生成结果会覆盖前次结果。

2. SkyTimelapse：摄影的天空图像

3. UCF101：现实动作视频的动作识别

4. Taichi-HD；高清晰度视频生成

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

Krea-realtime-video：实时视频生成模型

SAM3：视觉分割模型

F5-E2 TTS 只需 3 秒克隆任何音色

HunyuanWorld-Mirror：3D 世界生成模型

一键部署 SmolLM3-3B-Model

Ovis-Image：高质量图像生成模型

SoulX-Podcast 面向多方言的播客级长文本语音生成

用 AI 构建 AI

HyperAI Newsletters

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

Krea-realtime-video：实时视频生成模型

SAM3：视觉分割模型

F5-E2 TTS 只需 3 秒克隆任何音色

HunyuanWorld-Mirror：3D 世界生成模型

一键部署 SmolLM3-3B-Model

Ovis-Image：高质量图像生成模型

SoulX-Podcast 面向多方言的播客级长文本语音生成

相关教程

LongCat-Video：美团开源的 AI 视频生成模型