
摘要
近期研究表明,深度生成扩散模型中的去噪过程会隐式地学习并记忆数据分布中的语义信息。这些发现表明,要捕捉更复杂的数据分布,需要更大规模的神经网络,从而导致计算需求大幅增加,进而在扩散模型的训练与推理过程中形成主要瓶颈。为此,我们提出 GMem:一种面向超高效生成模型的模块化方法。GMem 将模型的记忆能力与网络结构解耦,将其作为独立的、不可更改的记忆集合,用于保留数据中的关键语义信息。实验结果表明,GMem 显著提升了训练效率、采样效率以及生成多样性。该设计一方面减少了模型对网络容量以记忆复杂数据分布的依赖,从而有效提升训练与采样效率。在 ImageNet 数据集上,以 $256 \times 256$ 分辨率进行训练时,GMem 相较于 SiT 实现了 50 倍的训练加速,在不足 28 个周期(约 4 小时训练时间)内即达到 FID = 7.66,而 SiT 则需 1400 个周期。在不使用分类器自由引导(classifier-free guidance)的情况下,GMem 仅用 160 个周期(约 20 小时训练时间)即取得当前最优(SoTA)性能,FID 达到 1.53,显著优于 LightningDiT——后者需 800 个周期、约 95 小时才能达到 FID = 2.17。