HyperAI超神经

D-AR:基于自回归模型的扩散

Gao, Ziteng ; Shou, Mike Zheng
发布日期: 6/1/2025
D-AR:基于自回归模型的扩散
摘要

本文介绍了扩散自回归模型(Diffusion via Autoregressive models, D-AR),这是一种将图像扩散过程重新定义为标准的下一个标记预测自回归程序的新范式。我们首先设计了一个标记器,该标记器将图像转换为离散标记的序列,其中不同位置的标记可以在像素空间中解码为不同的扩散去噪步骤。由于扩散特性,这些标记自然遵循从粗到细的顺序,这直接适用于自回归建模。因此,我们在这些标记上应用了标准的下一个标记预测方法,而无需修改任何底层设计(无论是因果掩码还是训练/推理策略),这种顺序生成的自回归标记直接反映了图像空间中的扩散过程。也就是说,一旦自回归模型生成了一组新的标记,我们就可以直接以流式方式解码这些标记,对应到相应的扩散去噪步骤。我们的流程自然揭示了几个有趣的属性,例如在仅生成部分标记时支持一致的预览,并且能够实现零样本布局控制合成。在标准的ImageNet基准测试中,我们的方法使用7.75亿参数的Llama主干网络和256个离散标记达到了2.09的FID分数。我们希望我们的工作能够激发未来关于视觉合成统一自回归架构的研究,特别是与大型语言模型相结合的研究。代码和模型将在以下地址提供:https://github.com/showlab/D-AR