
摘要
扩散变换器(Diffusion Transformers)作为一种替代基于U-Net的扩散模型的方法,在高保真图像和视频生成中展现出更优的可扩展性。然而,其计算量较大,仍然是实际部署中的主要障碍。现有的加速方法主要依赖于时间维度,例如在扩散步骤之间复用缓存的特征。在此,我们提出了一种无需训练的框架——区域自适应潜在上采样(Region-Adaptive Latent Upsampling, RALU),该框架通过空间维度加速推理过程。RALU在三个阶段进行混合分辨率采样:1)在低分辨率下进行去噪潜在扩散,以高效捕捉全局语义结构;2)在易产生伪影的特定区域进行区域自适应上采样;3)在全分辨率下对所有潜在变量进行上采样,以进行细节优化。为在不同分辨率之间保持生成的稳定性,我们采用噪声-时间步重调度(noise-timestep rescheduling)方法,以适应不同分辨率下的噪声水平。我们的方法在保持图像质量的前提下显著降低了计算量,在FLUX模型上实现了最高达7.0倍的加速,在Stable Diffusion 3模型上实现了3.0倍的加速,且仅造成极小的性能下降。此外,RALU与现有的时间维度加速方法(如缓存机制)具有互补性,因此可以无缝集成,进一步降低推理延迟,而不会影响生成质量。