Command Palette
Search for a command to run...
一键部署 Hyper-SD
摘要
一句话总结
本文作者提出了 Hyper-SD,这是一种一致性蒸馏框架。该框架通过轨迹分段一致性蒸馏(TSCD)、人类反馈学习与分数蒸馏,结合常微分方程(ODE)轨迹的保留与重构,缓解了现有扩散模型的性能退化问题。同时,框架利用统一的 LoRA 适配器,在降低计算开销的前提下实现了高效、低步数的图像合成。
核心贡献
- 该框架引入了轨迹分段一致性蒸馏(TSCD),将扩散时间步划分为预定义的段,在逐步合并之前于局部强制实现高阶一致性。该机制保留了原始的 ODE 轨迹,并减轻了步数压缩过程中累积的拟合误差。
- 引入人类反馈学习与分数蒸馏以优化少步生成能力,并由统一的低秩自适应(LoRA)模块提供支持,该模块在所有时间步上保持一致的推理性能。这一整合提升了模型在低步数场景下的表现,同时使其输出更符合人类偏好。
- 在 SDXL 和 SD1.5 基准上的大量评估表明,该方法在低步数推理场景中达到了最先进的性能。与现有的扩散加速技术相比,该方法在显著降低计算开销的同时提供了高质量的图像生成结果。
引言
扩散模型已成为生成式人工智能的基石,但其对长链多步推理的依赖产生了巨大的计算开销,限制了实际部署。以往的加速策略通常遵循两条路径:轨迹保留蒸馏,该方法维持原始模型流程,但常因累积的拟合误差导致输出质量下降;以及轨迹重构蒸馏,该方法构建更快的生成路径,但经常与基础模型产生领域不一致性。作者通过引入一个统一的蒸馏框架来解决这些权衡问题,该框架策略性地融合了上述两种方法。作者提出轨迹分段一致性蒸馏,以在时间步之间强制执行细粒度对齐,同时逐步减少推理步数。此外,框架整合了人类反馈学习以重塑 ODE 轨迹,从而实现最优的少步性能,并在统一的 LoRA 适配器中采用分数蒸馏,以支持稳健的单步生成。这种组合方法在 SDXL 和 SD1.5 架构上均提供了最先进的图像质量,同时大幅降低了计算开销。
数据集
- 数据集组成与来源: 作者使用 LAION 和 COYO 数据集的子集构建主要的蒸馏训练流水线,同时专门引入 COCO2017 的训练划分用于人类反馈学习。
- 各子集的关键细节:
- LAION 与 COYO:遵循 SDXL-lightning 协议进行处理,以生成用于多阶段蒸馏的文本-图像对。
- COCO2017:专用于结构优化,利用其已有的实例标注与配对描述。
- 数据使用与训练配置: LAION 和 COYO 子集驱动了四个训练阶段中的逐步时间步缩减。COCO2017 数据通过提供用于对齐的结构化真实标签来支持人类反馈学习。所有蒸馏阶段均采用 512 的批次大小、1e-6 的学习率,并训练轻量级 LoRA 适配器而非完整的 UNet 权重。
- 处理与元数据管理: 本文未引入自定义裁剪或元数据构建流程。预处理依赖 LAION 和 COYO 的标准 SDXL-lightning 工作流,而 COCO2017 子集直接应用其内置的实例分割掩码与描述以进行结构优化。
方法
作者采用多阶段框架来增强扩散模型的蒸馏过程,重点在于保留原始常微分方程(ODE)轨迹,同时实现高效的少步推理。该方法的核心称为轨迹分段一致性蒸馏(TSCD),通过将完整的时间步范围 [0,T] 分解为 k 个段,解决了单阶段一致性蒸馏的局限性。这种分段策略支持渐进式且细粒度的蒸馏,降低了模型拟合的复杂度,并最小化影响生成质量的误差。该过程从粗粒度分段开始,将时间间隔划分为 k 个部分,并在每个段内独立执行一致性蒸馏。如下图所示,初始阶段训练模型在两个独立区间 [0,T/2] 和 [T/2,T] 内遵循 ODE 轨迹,从而生成两条独立的一致性 ODE 路径。随后进入全局一致性轨迹蒸馏阶段,将各段的结果整合为一个统一模型。 
TSCD 框架会根据训练阶段动态调整训练损失。该框架采用结合对抗损失与均方误差(MSE)损失的混合损失函数。在预测值与目标值差异增大的后期阶段,优先使用对抗损失;而在预测值较为接近的早期阶段,MSE 损失则更为有效。这种动态权重分配确保了所有训练阶段的稳定与高效。此外,框架集成了噪声扰动机制以进一步提升训练稳定性。该方法利用低秩自适应(LoRA)技术,使 TSCD 模型能够作为即插即用的插件进行训练,并可立即部署。
为进一步提升蒸馏模型的性能,作者引入了人类反馈学习。该技术旨在通过将模型输出引导至符合人类审美偏好与客观视觉感知标准的方向,来增强生成质量。审美反馈来源于 LAION 审美预测器与 ImageReward 等模型,这些模型提供奖励信号以指导模型生成更高质量的输出。此外,来自实例分割模型的感知反馈用于评估并提升生成图像的结构准确性。这种双重反馈机制使模型能够在主观审美吸引力与客观结构正确性之间取得平衡。 
最后,该框架解决了单步生成面临的挑战,该挑战本质上受限于一致性损失。作者整合了分数蒸馏以提升 TSCD 模型的单步推理能力。该方法利用分布匹配蒸馏(DMD)技术,结合教师模型真实分布与伪造分布的分数函数来优化模型输出。分数蒸馏过程辅以 MSE 损失以促进训练稳定性。通过结合 TSCD 框架、分数蒸馏与人类反馈学习,作者实现了一个统一模型,该模型支持 1 至 8 步的推理,有效消除了将模型转换为 x0 预测的需求,并实现了单步 LoRA 插件的部署。这种集成方法在步数压缩过程中确保了近乎无损的性能,在 SDXL 与 SD1.5 模型上均取得了最先进的结果。
实验
评估方案在 COCO-5k 数据集上,结合 SD15 与 SDXL 架构,将所提方法与基线及最先进的扩散加速方法进行了基准测试,并辅以视觉对比与全面的用户研究。主要实验验证了将轨迹分段一致性蒸馏与人类反馈学习相结合,能够显著提升生成图像的审美质量与提示词遵循度,同时将推理步数减少至单步。消融实验与兼容性测试进一步表明,统一的轻量级适配器有效缓解了训练难度,在不同步数下保持了质量的一致性,并能与 ControlNet 及多种基础模型无缝协作。综合这些发现证实,该框架提供了高效、可扩展且视觉质量优越的图像合成能力,非常适合实际部署。
作者在 SDXL 架构上使用定量指标将所提方法与基线方法进行了对比,评估了引入人类反馈前后的性能。结果表明,该方法在多项指标上均取得了更高分数,特别是在图像-文本对齐与审美质量方面,同时在不同的推理步数下保持一致性。该方法还展现了良好的鲁棒性与可扩展性,在低步数与高步数设置下均优于基线模型。所提方法在图像-文本对齐与审美质量方面超越了基线方法,尤其是在使用人类反馈时效果更为明显。该方法在不同推理步数下保持了稳定的性能,在低步数与高步数设置下均获得了提升分数。该方案展现出强大的鲁棒性与可扩展性,在多项评估指标上均优于基线模型。
作者使用定量指标在不同模型与推理步数上,将所提方法与现有加速方法进行了对比。结果表明,该方法在审美质量与图像-文本对齐方面取得了更高分数,同时所需步数更少,展现了提升的效率与质量。该方法在不同模型架构与推理设置下也保持了稳定的性能。与基线模型相比,所提方法以更少的推理步数获得了更高的审美与对齐分数。该方法在 SD15 与 SDXL 架构上均优于其他方案,在不同模型类型中展现出持续提升的效果。统一的 LoRA 方案在不同推理步数下均维持了高质量结果,体现了其鲁棒性与实际应用能力。
作者对 Hyper-SD 方法进行了全面评估,将其与多种加速方案在 SD15 与 SDXL 架构上进行了对比。结果表明,Hyper-SD 在不同模型与推理步数下均稳定实现了更高的用户偏好率,尤其在单步生成方面表现突出。与基线方法及基于蒸馏的方法相比,该方法展现出更优的性能,在图像质量与用户提示词对齐方面具有显著优势。Hyper-SD 在不同模型与推理步数下的用户偏好率均高于竞争方法。该方法在单步图像生成任务上显著优于基线与基于蒸馏的方案,尤其是在 SDXL 架构上。Hyper-SD 在不同架构与用户提示词下均保持了强劲的性能与图像质量,体现了其鲁棒性与可扩展性。
作者展示了所提方法与基线模型在不同架构与推理步数上的对比结果,表明各项指标均有所提升。结果表明,减少推理步数会导致性能下降,但所提方法即使在单步情况下仍能维持高质量输出,尤其在 SDXL 架构上表现明显。该方法在多项指标与不同架构上展现出稳定的性能,其中 SDXL 模型在大多数情况下得分高于 SD15。与 SD15 相比,该方法在 SDXL 上的所有推理步数下均获得了更高的审美与对齐分数。减少推理步数会导致性能下降,但所提方法即使在单步时仍能保持强劲效果。在不同推理步数下,SDXL 架构在审美与对齐指标上均持续优于 SD15。
{"summary": "作者将所提方法与多种加速方案进行了对比,证明了所提出的 TSCD 框架在多项指标上显著提升了性能,尤其是在审美质量与图像-文本对齐方面。结果表明,引入人类反馈学习增强了模型在低推理步数下保持一致性与质量的能力。统一的 LoRA 方案进一步证明了其跨不同步数的稳定性能,体现了其在实际应用场景中的实用性。", "highlights": ["所提方法在审美质量与图像-文本匹配方面优于基线模型,尤其在单步推理时表现突出。", "人类反馈学习有效补偿了蒸馏过程中的性能下降,提升了模型的一致性与生成质量。", "统一的 LoRA 方案在不同推理步数下均维持了高质量结果,展现了良好的可扩展性与实用性。"]}
实验在 SD15 与 SDXL 架构上,将所提方法与基线及基于蒸馏的方案进行了对比,评估了有无人类反馈在不同推理步数下的性能。这些评估验证了该方法能够成功加速生成过程,同时保持强劲的图像-文本对齐能力与审美质量,尤其在要求苛刻的单步场景中表现优异。人类反馈学习有效缓解了加速过程中常见的性能下降问题,统一的 LoRA 框架确保了跨不同模型与步数的一致性输出。总体而言,与现有的加速技术相比,该方法展现出了更优的鲁棒性、可扩展性与实际应用能力。