Command Palette
Search for a command to run...
TurboDiffusion:通过100-200倍加速视频Diffusion模型
TurboDiffusion:通过100-200倍加速视频Diffusion模型
Jintao Zhang Kaiwen Zheng Kai Jiang Haoxu Wang Ion Stoica Joseph E. Gonzalez Jianfei Chen Jun Zhu
摘要
我们提出TurboDiffusion,一种视频生成加速框架,可在保持视频质量的前提下,将端到端扩散模型生成速度提升100至200倍。TurboDiffusion的加速主要依赖于以下几个核心组件:(1)注意力计算加速:采用低比特SageAttention与可训练的稀疏线性注意力(Sparse-Linear Attention, SLA),显著提升注意力机制的计算效率;(2)步长蒸馏优化:引入rCM方法实现高效的步长蒸馏;(3)W8A8量化:将模型参数与激活值量化至8位,以加速线性层运算并压缩模型体积。此外,TurboDiffusion还集成了一系列其他工程优化技术。我们在Wan2.2-I2V-14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P和Wan2.1-T2V-14B-480P等多个模型上进行了实验。实验结果表明,即使仅使用单张RTX 5090 GPU,TurboDiffusion仍可实现100至200倍的视频生成速度提升,同时保持与原始模型相当的视频质量。项目代码与模型检查点已开源,可通过以下地址访问:https://github.com/thu-ml/TurboDiffusion
一句话总结
清华大学、生数科技与加州大学伯克利分校的研究人员提出了 TurboDiffusion 框架,通过 SageAttention、SLA、rCM 蒸馏和 W8A8 量化技术,将视频扩散模型的推理速度提升 100–200 倍,同时在 RTX 5090 GPU 上保持高质量输出,适用于实时应用。
主要贡献
- TurboDiffusion 通过低比特 SageAttention、可训练稀疏线性注意力(SLA)、基于 rCM 的步数蒸馏和 W8A8 量化等算法创新,在单张 RTX 5090 GPU 上将视频扩散模型加速 100–200 倍,且不损害输出质量。
- 该框架整合了注意力稀疏化、采样步数减少(例如从 100 步降至 3–4 步)以及权重与激活值的 8 位块级量化,实现高效推理,同时将模型体积压缩约一半。
- 在 Wan2.1 和 Wan2.2 视频模型(参数量 1.3B–14B,分辨率 480P–720P)上评估,TurboDiffusion 将生成延迟从数分钟缩短至数秒——例如 Wan2.2-I2V-A14B-720P 从 4549 秒降至 38 秒——同时保持与原始模型及 FastVideo 基线相当的视觉保真度。
引言
作者结合算法与系统级优化,大幅加速视频扩散模型,实现 100 至 200 倍的生成速度提升,同时保持视觉质量。以往工作受限于视频生成的高计算开销,即使在高端硬件上生成单个视频片段也需数分钟至数小时,难以支持实时或交互式应用。他们的主要贡献是 TurboDiffusion,该框架整合了低比特注意力、稀疏线性注意力、基于 rCM 的步数蒸馏和 W8A8 量化,并辅以工程优化,使多种模型变体在单张 RTX 5090 GPU 上的生成时间缩短至一分钟以内。

方法
作者在 TurboDiffusion 中采用多管齐下的加速策略,实现高达 200 倍的视频扩散生成加速,同时保持输出保真度。该框架融合算法创新与系统级优化,针对扩散模型中计算最密集的组件:注意力机制、采样步数和线性变换。
注意力加速的核心是采用 SageAttention2++,这是一种利用量化计算提升效率的低比特注意力变体。该方法进一步通过稀疏线性注意力(SLA)增强,通过引入稀疏模式降低自注意力的平方复杂度。由于稀疏计算与低比特加速正交,SLA 在 SageAttention 基础上实现叠加增益。推理阶段,作者部署 SageSLA——一种基于 SageAttention 的 CUDA 优化 SLA 实现——以最大化现代 GPU 的硬件利用率。
请参考框架示意图,该图展示了端到端加速流水线,突出注意力、步数减少和量化模块在推理过程中的交互。
步数蒸馏通过 rCM 实现,这是一种用于减少扩散模型采样步数的前沿方法。作者将预训练模型蒸馏为仅需 3–4 步采样的学生模型,取代常规的 100 步,同时不损失质量。该蒸馏与 SLA 微调并行执行,训练期间将参数更新合并至单一统一模型。rCM 方法自然继承注意力层级优化,确保稀疏与低比特注意力带来的加速效果延续至蒸馏模型。
对于线性层加速,TurboDiffusion 采用 W8A8 量化——将权重和激活值均量化为 INT8,块粒度为 128×128。这使模型体积减少约一半,并支持使用 INT8 Tensor Core 加速矩阵乘法。推理时,激活值动态实时量化,允许训练保持全精度,同时受益于量化推理的吞吐量。
额外的系统级优化包括 LayerNorm 和 RMSNorm 等归一化层的自定义 Triton 和 CUDA 实现,进一步减少内核启动开销并提升内存带宽利用率。这些优化共同使 TurboDiffusion 在高分辨率视频模型上实现亚秒级生成延迟,如在单张 RTX 5090 GPU 上所展示。
实验
- TurboDiffusion 在多个 Wan 模型上显著加速视频生成,相比原始实现最高提速 120 倍,同时保持视觉质量。
- 在效率与输出保真度方面均优于 FastVideo,尤其在高分辨率、大参数模型如 Wan2.1-T2V-14B-720P 上表现突出。
- 该方法在多样化提示下(如电影动作、超现实艺术、纪录片风格场景)保持一致性能,不损害美学或时间连贯性。
- 最优结果通过 3–4 个采样步数和 Top-K 比率 0.1–0.15 实现,在稀疏性与质量间取得平衡。
- 加速效果在 RTX 5090、4090 和 H100 等多种 GPU 上均有效,验证了硬件可移植性与广泛适用性。