HyperAI超神经

LTX-Video:极速视频生成 V2

一、教程简介

LTX-Video 的 ltxv-13b-0.9.7-distilled 是由 Lightricks 于 2025 年 5 月 14 日发布的最新版本蒸馏模型,该模型采用了 transformer 和 Video-VAE 技术,能够高效生成高分辨率视频。在 Nvidia H100 GPU 上仅用 2 秒就以 768×512 的分辨率生成了 5 秒的 24 fps 视频,性能优于所有类似规模的现有模型。此外,LTX-Video 支持多种视频生成方式,包括从文本到视频、从图像到视频、扩展视频和具有多个条件的视频生成。相关论文成果为「LTX-Video: Realtime Video Latent Diffusion」。

该教程算力资源采用单卡 A6000,提供文本到视频和图片到视频生成两个示例供测试。

二、效果展示

文本到视频:

图像到视频:

三、运行步骤

1. 启动容器

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。

2. 使用示例

Prompt 仅支持英文。

1. image-to-video

具体参数:

  • Upload Image: 这里可以上传一张图片作为视频生成的起点。
  • Prompt: 这里可以输入描述视频内容的文字,模型会根据这些文字生成视频。
  • Video Duration: 选择视频的生成长度。
  • Negative Prompt: 这里可以输入你不希望出现在视频中的元素或特征,这有助于避免生成不希望出现的效果。
  • Seed: 这个数字决定了视频生成的随机性。
  • Guidance Scale(CFG): 控制提示对输出的影响程度。值越高影响越大。
  • Height: 高,必须能被 32 整除。
  • Width: 宽,必须能被 32 整除。

结果 

2. text-to-video

具体参数:

  • Prompt: 这里可以输入描述视频内容的文字,模型会根据这些文字生成视频。
  • Video Duration: 选择视频的生成长度。
  • Negative Prompt: 这里可以输入你不希望出现在视频中的元素或特征,这有助于避免生成不希望出现的效果。
  • Seed: 这个数字决定了视频生成的随机性。
  • Guidance Scale(CFG): 控制提示对输出的影响程度。值越高影响越大。
  • Height: 高,必须能被 32 整除。
  • Width: 宽,必须能被 32 整除。

结果输出

四、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

本项目引用信息如下:

@article{HaCohen2024LTXVideo,
  title={LTX-Video: Realtime Video Latent Diffusion},
  author={HaCohen, Yoav and Chiprut, Nisan and Brazowski, Benny and Shalem, Daniel and Moshe, Dudu and Richardson, Eitan and Levin, Eran and Shiran, Guy and Zabari, Nir and Gordon, Ori and Panet, Poriya and Weissbuch, Sapir and Kulikov, Victor and Bitterman, Yaki and Melumian, Zeev and Bibi, Ofir},
  journal={arXiv preprint arXiv:2501.00103},
  year={2024}
}