在线教程丨与 Sora 技术路线相似！全球首个开源文生视频 DiT 模型 Latte 一键部署

自 OpenAI 推出 Sora 以来，「文生视频」概念及相关应用备受瞩目。而伴随 Sora 的大热，其背后的关键技术，DiT(Diffusion Transformers) 也被「考古挖掘」了出来。

事实上，DiT 是一个文生图模型，该模型于两年前开源，其研发人员分别是 Peebles 和谢赛宁，其中 Peebles 也是 Sora 的项目领导者之一。

在 DiT 模型提出之前，Transformer 以其强大的特征提取和上下文理解能力，几乎在自然语言处理领域独霸一方。而 U-Net 则以其独特架构和优越的性能，在图像生成和扩散模型领域占据主导地位。 DiT 最大的特点是把扩散模型里的 U-Net 架构换成了 Transformer 架构。有趣的是，这项工作成果在 2023 年曾被 CVPR 拒稿，理由是缺乏创新点。

与 U-Net 相比，Transformer 具有更好的拓展性，它能够学习全局依赖关系，通过自注意力机制 (Self-Attention Mechanism) 处理序列数据中的长距离依赖问题，在处理图像全局特征方面有很大的优势。此外，基于 Transformer 架构的 DiT 在计算效率和生成效果上也有明显的提升，进一步推动了图像生成的规模化应用。

然而，由于视频数据的高度结构化与复杂性，如何将 DiT 扩展到视频生成领域却是一个挑战。对此，来自上海人工智能实验室的研究团队在 2023 年底便开源了全球首个文生视频 DiT：Latte 。作为一款与 Sora 技术相似的自研模型，Latte 可以自由部署，对于想要探索文生视频技术的小伙伴来说，开源的 Latte 无疑为大家提供了实践的机会。

首先，Latte 通过预训练的变分自编码器 (VAE) 将输入视频编码为潜在空间中的特征，并从中提取出 Tokens 。接着，利用上述某种变体中对应的 Transformer 结构对这些 Tokens 进行编码和解码。在生成过程，模型会依据学习到的反向扩散过程，在潜在空间中逐步还原出低噪声的视频帧表示，并最终重构为连续、逼真的视频内容。

值得注意的是，Latte 的背后的研发团队上海人工智能实验室曾联合中央广播电视总台，共同推出了首部中国原创文生视频 AI 系列动画《千秋诗颂》，并在 CCTV-1 综合频道上播出。业内人士分析，随着国内首部 AI 动画的开播，我国文生视频应用的落地有望加速，未来可能会重新塑造影视行业的制作流程，推动影视动画制作、游戏开发和广告设计的革命性发展。

在此背景下，为了帮助更多创意工作者和文生视频爱好者紧跟技术潮流，HyperAI 超神经上线了「Latte 全球首个开源文生视频 DiT」教程，该教程为大家搭建好了环境，无需再等待模型下载训练，点击克隆即可一键启动，输入文本即时生成视频！

教程地址：https://hyper.ai/tutorials/32065

小编用文本「a dog with sunglasses」生成了一个戴墨镜的小狗视频，还挺帅气的！

Demo 运行

1. 登录 hyper.ai，在「教程」页面，选择「Latte 全球首个开源文生视频 DiT」，点击「在线运行此教程」。

2. 页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

3. 点击右下角「下一步：选择算力」。

4. 跳转后，选择「NVIDIA GeForce RTX 4090」，点击「下一步：审核」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长！

HyperAI 超神经专属邀请链接（直接复制到浏览器打开）：https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

5. 点击「继续执行」，等待分配资源，首次克隆需等待 3-5 分钟左右的时间。当状态变为「运行中」后，点击「打开工作空间」。

若超过 10 分钟仍处于「正在分配资源」状态，可尝试停止并重启容器；若重启仍无法解决，请在官网联系平台客服。

6. 打开工作空间后，在左侧菜单中根据路径打开配置文件 home/Latte/configs/t2v/t2v_sample.yaml，在 text_prompt 下输入 prompt「例如：a dog with sunglasses」，并通过 Ctrl+S 保存。

7. 保存后，新建一个终端页面，输入「cd Latte」并按下回车键后进入「Latte」目录。输入「bash sample/t2v.sh」即可生成高清视频。

效果展示
1. 当进度条显示 100% 后，打开左侧菜单栏「Latte/sample_videos」，找到我们生成的视频，点击右键下载。请注意，MP4 视频无法直接观看，需要下载后才可观看。

2. 一个小狗戴墨镜的视频就生成啦！

目前，HyperAI 超神经官网已上线了数百个精选的机器学习相关教程，并整理成 Jupyter Notebook 的形式。

点击链接即可搜索相关教程及数据集：https://hyper.ai/tutorials

以上就是 HyperAI 超神经本次分享的全部内容了，如果大家看到优质项目，欢迎后台留言推荐给我们！另外，我们还建立了「Stable Diffusion 教程交流群」，欢迎小伙伴们入群探讨各类技术问题、分享应用效果~

HyperAI

在线教程丨与 Sora 技术路线相似！全球首个开源文生视频 DiT 模型 Latte 一键部署

2 年前

事实上，DiT 是一个文生图模型，该模型于两年前开源，其研发人员分别是 Peebles 和谢赛宁，其中 Peebles 也是 Sora 的项目领导者之一。

教程地址：https://hyper.ai/tutorials/32065

小编用文本「a dog with sunglasses」生成了一个戴墨镜的小狗视频，还挺帅气的！

Demo 运行

1. 登录 hyper.ai，在「教程」页面，选择「Latte 全球首个开源文生视频 DiT」，点击「在线运行此教程」。

2. 页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

3. 点击右下角「下一步：选择算力」。

4. 跳转后，选择「NVIDIA GeForce RTX 4090」，点击「下一步：审核」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长！

HyperAI 超神经专属邀请链接（直接复制到浏览器打开）：https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

5. 点击「继续执行」，等待分配资源，首次克隆需等待 3-5 分钟左右的时间。当状态变为「运行中」后，点击「打开工作空间」。

若超过 10 分钟仍处于「正在分配资源」状态，可尝试停止并重启容器；若重启仍无法解决，请在官网联系平台客服。

7. 保存后，新建一个终端页面，输入「cd Latte」并按下回车键后进入「Latte」目录。输入「bash sample/t2v.sh」即可生成高清视频。

2. 一个小狗戴墨镜的视频就生成啦！

目前，HyperAI 超神经官网已上线了数百个精选的机器学习相关教程，并整理成 Jupyter Notebook 的形式。

点击链接即可搜索相关教程及数据集：https://hyper.ai/tutorials

在线教程丨与 Sora 技术路线相似！全球首个开源文生视频 DiT 模型 Latte 一键部署

2 年前

事实上，DiT 是一个文生图模型，该模型于两年前开源，其研发人员分别是 Peebles 和谢赛宁，其中 Peebles 也是 Sora 的项目领导者之一。

教程地址：https://hyper.ai/tutorials/32065

小编用文本「a dog with sunglasses」生成了一个戴墨镜的小狗视频，还挺帅气的！

Demo 运行

1. 登录 hyper.ai，在「教程」页面，选择「Latte 全球首个开源文生视频 DiT」，点击「在线运行此教程」。

2. 页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

3. 点击右下角「下一步：选择算力」。

4. 跳转后，选择「NVIDIA GeForce RTX 4090」，点击「下一步：审核」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长！

HyperAI 超神经专属邀请链接（直接复制到浏览器打开）：https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

5. 点击「继续执行」，等待分配资源，首次克隆需等待 3-5 分钟左右的时间。当状态变为「运行中」后，点击「打开工作空间」。

若超过 10 分钟仍处于「正在分配资源」状态，可尝试停止并重启容器；若重启仍无法解决，请在官网联系平台客服。

7. 保存后，新建一个终端页面，输入「cd Latte」并按下回车键后进入「Latte」目录。输入「bash sample/t2v.sh」即可生成高清视频。

2. 一个小狗戴墨镜的视频就生成啦！

目前，HyperAI 超神经官网已上线了数百个精选的机器学习相关教程，并整理成 Jupyter Notebook 的形式。

点击链接即可搜索相关教程及数据集：https://hyper.ai/tutorials

Command Palette

在线教程丨与 Sora 技术路线相似！全球首个开源文生视频 DiT 模型 Latte 一键部署

Command Palette

在线教程丨与 Sora 技术路线相似！全球首个开源文生视频 DiT 模型 Latte 一键部署

相关报道

ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力

Emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

极致轻量，画质不减！ERNIE-Image-Turbo：告别漫长等待，速度快到飞起；引入感知与认知双维指标：阿里多模态统一解析评估数据集 OmniParsingBench 上线

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

教程汇总丨开源小模型综合智能水平追平 GPT-5，一站测评 Qwen 3.5/Gemma 4 等热门模型

在线教程丨港大团队开源个人学习助手 DeepTutor，多智能体协作实现覆盖理解/推理/生成的交互式学习

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet 提升 VLM 图表重建与表格提取能力

在线教程丨最高 4 倍生成速度提升，DiffusionGemma 可同时生成整块文本，基于多轮并行去噪持续优化结果

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

Command Palette

在线教程丨与 Sora 技术路线相似！全球首个开源文生视频 DiT 模型 Latte 一键部署

相关报道

ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力

Emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

极致轻量，画质不减！ERNIE-Image-Turbo：告别漫长等待，速度快到飞起；引入感知与认知双维指标：阿里多模态统一解析评估数据集 OmniParsingBench 上线

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

教程汇总丨开源小模型综合智能水平追平 GPT-5，一站测评 Qwen 3.5/Gemma 4 等热门模型

在线教程丨港大团队开源个人学习助手 DeepTutor，多智能体协作实现覆盖理解/推理/生成的交互式学习

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet 提升 VLM 图表重建与表格提取能力

在线教程丨最高 4 倍生成速度提升，DiffusionGemma 可同时生成整块文本，基于多轮并行去噪持续优化结果

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

相关报道

ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力

Emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

极致轻量，画质不减！ERNIE-Image-Turbo：告别漫长等待，速度快到飞起；引入感知与认知双维指标：阿里多模态统一解析评估数据集 OmniParsingBench 上线

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

教程汇总丨开源小模型综合智能水平追平 GPT-5，一站测评 Qwen 3.5/Gemma 4 等热门模型

在线教程丨港大团队开源个人学习助手 DeepTutor，多智能体协作实现覆盖理解/推理/生成的交互式学习

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet 提升 VLM 图表重建与表格提取能力

在线教程丨最高 4 倍生成速度提升，DiffusionGemma 可同时生成整块文本，基于多轮并行去噪持续优化结果

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

相关报道

ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力

Emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

极致轻量，画质不减！ERNIE-Image-Turbo：告别漫长等待，速度快到飞起；引入感知与认知双维指标：阿里多模态统一解析评估数据集 OmniParsingBench 上线

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

教程汇总丨开源小模型综合智能水平追平 GPT-5，一站测评 Qwen 3.5/Gemma 4 等热门模型

在线教程丨港大团队开源个人学习助手 DeepTutor，多智能体协作实现覆盖理解/推理/生成的交互式学习

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet 提升 VLM 图表重建与表格提取能力

在线教程丨最高 4 倍生成速度提升，DiffusionGemma 可同时生成整块文本，基于多轮并行去噪持续优化结果

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集