Command Palette
Search for a command to run...
Jiacheng Liu Xinyu Wang Yuqi Lin Zhikai Wang et al

摘要
扩散模型因其卓越的生成质量与可控性,已成为现代生成式人工智能的基石。然而,其固有的多步迭代特性以及复杂的骨干网络结构,导致计算开销巨大、生成延迟高,成为实时应用中的主要瓶颈。尽管现有的加速技术已取得一定进展,但仍面临适用性有限、训练成本高或生成质量下降等挑战。在此背景下,扩散缓存(Diffusion Caching)提出了一种无需训练、与架构无关且高效的推理范式,展现出广阔前景。其核心机制在于识别并复用扩散过程中的内在计算冗余。通过实现特征层面的跨步骤复用与层间调度优化,该方法在不修改模型参数的前提下显著降低计算量。本文系统梳理了扩散缓存的理论基础及其演进历程,并提出一个统一的分类与分析框架。通过对代表性方法的对比分析,我们发现扩散缓存正从静态复用向动态预测演进。这一趋势显著提升了在多样化任务下的缓存灵活性,并可与采样优化、模型蒸馏等其他加速技术无缝集成,为未来多模态及交互式应用构建统一、高效的推理体系铺平道路。我们认为,这一范式将成为推动实时、高效生成式人工智能发展的关键驱动力,为高效生成智能(Efficient Generative Intelligence)的理论与实践注入新的活力。