1 个月前

摘要

我们提出TurboDiffusion，一种视频生成加速框架，可在保持视频质量的前提下，将端到端扩散模型生成速度提升100至200倍。TurboDiffusion的加速主要依赖于以下几个核心组件：（1）注意力计算加速：采用低比特SageAttention与可训练的稀疏线性注意力（Sparse-Linear Attention, SLA），显著提升注意力机制的计算效率；（2）步长蒸馏优化：引入rCM方法实现高效的步长蒸馏；（3）W8A8量化：将模型参数与激活值量化至8位，以加速线性层运算并压缩模型体积。此外，TurboDiffusion还集成了一系列其他工程优化技术。我们在Wan2.2-I2V-14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P和Wan2.1-T2V-14B-480P等多个模型上进行了实验。实验结果表明，即使仅使用单张RTX 5090 GPU，TurboDiffusion仍可实现100至200倍的视频生成速度提升，同时保持与原始模型相当的视频质量。项目代码与模型检查点已开源，可通过以下地址访问：https://github.com/thu-ml/TurboDiffusion

一句话总结

清华大学、生数科技与加州大学伯克利分校的研究人员提出了 TurboDiffusion 框架，通过 SageAttention、SLA、rCM 蒸馏和 W8A8 量化技术，将视频扩散模型的推理速度提升 100–200 倍，同时在 RTX 5090 GPU 上保持高质量输出，适用于实时应用。

主要贡献

TurboDiffusion 通过低比特 SageAttention、可训练稀疏线性注意力（SLA）、基于 rCM 的步数蒸馏和 W8A8 量化等算法创新，在单张 RTX 5090 GPU 上将视频扩散模型加速 100–200 倍，且不损害输出质量。
该框架整合了注意力稀疏化、采样步数减少（例如从 100 步降至 3–4 步）以及权重与激活值的 8 位块级量化，实现高效推理，同时将模型体积压缩约一半。
在 Wan2.1 和 Wan2.2 视频模型（参数量 1.3B–14B，分辨率 480P–720P）上评估，TurboDiffusion 将生成延迟从数分钟缩短至数秒——例如 Wan2.2-I2V-A14B-720P 从 4549 秒降至 38 秒——同时保持与原始模型及 FastVideo 基线相当的视觉保真度。

引言

作者结合算法与系统级优化，大幅加速视频扩散模型，实现 100 至 200 倍的生成速度提升，同时保持视觉质量。以往工作受限于视频生成的高计算开销，即使在高端硬件上生成单个视频片段也需数分钟至数小时，难以支持实时或交互式应用。他们的主要贡献是 TurboDiffusion，该框架整合了低比特注意力、稀疏线性注意力、基于 rCM 的步数蒸馏和 W8A8 量化，并辅以工程优化，使多种模型变体在单张 RTX 5090 GPU 上的生成时间缩短至一分钟以内。

顶部图示

方法

作者在 TurboDiffusion 中采用多管齐下的加速策略，实现高达 200 倍的视频扩散生成加速，同时保持输出保真度。该框架融合算法创新与系统级优化，针对扩散模型中计算最密集的组件：注意力机制、采样步数和线性变换。

注意力加速的核心是采用 SageAttention2++，这是一种利用量化计算提升效率的低比特注意力变体。该方法进一步通过稀疏线性注意力（SLA）增强，通过引入稀疏模式降低自注意力的平方复杂度。由于稀疏计算与低比特加速正交，SLA 在 SageAttention 基础上实现叠加增益。推理阶段，作者部署 SageSLA——一种基于 SageAttention 的 CUDA 优化 SLA 实现——以最大化现代 GPU 的硬件利用率。

请参考框架示意图，该图展示了端到端加速流水线，突出注意力、步数减少和量化模块在推理过程中的交互。

步数蒸馏通过 rCM 实现，这是一种用于减少扩散模型采样步数的前沿方法。作者将预训练模型蒸馏为仅需 3–4 步采样的学生模型，取代常规的 100 步，同时不损失质量。该蒸馏与 SLA 微调并行执行，训练期间将参数更新合并至单一统一模型。rCM 方法自然继承注意力层级优化，确保稀疏与低比特注意力带来的加速效果延续至蒸馏模型。

对于线性层加速，TurboDiffusion 采用 W8A8 量化——将权重和激活值均量化为 INT8，块粒度为 $128 \times 128$ 。这使模型体积减少约一半，并支持使用 INT8 Tensor Core 加速矩阵乘法。推理时，激活值动态实时量化，允许训练保持全精度，同时受益于量化推理的吞吐量。

额外的系统级优化包括 LayerNorm 和 RMSNorm 等归一化层的自定义 Triton 和 CUDA 实现，进一步减少内核启动开销并提升内存带宽利用率。这些优化共同使 TurboDiffusion 在高分辨率视频模型上实现亚秒级生成延迟，如在单张 RTX 5090 GPU 上所展示。

实验

TurboDiffusion 在多个 Wan 模型上显著加速视频生成，相比原始实现最高提速 120 倍，同时保持视觉质量。
在效率与输出保真度方面均优于 FastVideo，尤其在高分辨率、大参数模型如 Wan2.1-T2V-14B-720P 上表现突出。
该方法在多样化提示下（如电影动作、超现实艺术、纪录片风格场景）保持一致性能，不损害美学或时间连贯性。
最优结果通过 3–4 个采样步数和 Top-K 比率 0.1–0.15 实现，在稀疏性与质量间取得平衡。
加速效果在 RTX 5090、4090 和 H100 等多种 GPU 上均有效，验证了硬件可移植性与广泛适用性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

1 个月前

Jintao Zhang Kaiwen Zheng Kai Jiang Haoxu Wang Ion Stoica Joseph E. Gonzalez Jianfei Chen Jun Zhu

摘要

一句话总结

主要贡献

TurboDiffusion 通过低比特 SageAttention、可训练稀疏线性注意力（SLA）、基于 rCM 的步数蒸馏和 W8A8 量化等算法创新，在单张 RTX 5090 GPU 上将视频扩散模型加速 100–200 倍，且不损害输出质量。
该框架整合了注意力稀疏化、采样步数减少（例如从 100 步降至 3–4 步）以及权重与激活值的 8 位块级量化，实现高效推理，同时将模型体积压缩约一半。
在 Wan2.1 和 Wan2.2 视频模型（参数量 1.3B–14B，分辨率 480P–720P）上评估，TurboDiffusion 将生成延迟从数分钟缩短至数秒——例如 Wan2.2-I2V-A14B-720P 从 4549 秒降至 38 秒——同时保持与原始模型及 FastVideo 基线相当的视觉保真度。

引言

顶部图示

方法

请参考框架示意图，该图展示了端到端加速流水线，突出注意力、步数减少和量化模块在推理过程中的交互。

实验

TurboDiffusion 在多个 Wan 模型上显著加速视频生成，相比原始实现最高提速 120 倍，同时保持视觉质量。
在效率与输出保真度方面均优于 FastVideo，尤其在高分辨率、大参数模型如 Wan2.1-T2V-14B-720P 上表现突出。
该方法在多样化提示下（如电影动作、超现实艺术、纪录片风格场景）保持一致性能，不损害美学或时间连贯性。
最优结果通过 3–4 个采样步数和 Top-K 比率 0.1–0.15 实现，在稀疏性与质量间取得平衡。
加速效果在 RTX 5090、4090 和 H100 等多种 GPU 上均有效，验证了硬件可移植性与广泛适用性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

TurboDiffusion：通过100-200倍加速视频Diffusion模型

Jintao Zhang Kaiwen Zheng Kai Jiang Haoxu Wang Ion Stoica Joseph E. Gonzalez Jianfei Chen Jun Zhu

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

TurboDiffusion：通过100-200倍加速视频Diffusion模型

Jintao Zhang Kaiwen Zheng Kai Jiang Haoxu Wang Ion Stoica Joseph E. Gonzalez Jianfei Chen Jun Zhu

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

TurboDiffusion：通过100-200倍加速视频Diffusion模型

Jintao Zhang Kaiwen Zheng Kai Jiang Haoxu Wang Ion Stoica Joseph E. Gonzalez Jianfei Chen Jun Zhu

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters