
摘要
传统观点认为,图像生成的自回归模型通常依赖于向量量化(vector-quantized)的离散标记(tokens)。然而,我们观察到,尽管离散空间有助于表示类别分布,但并非自回归建模的必要条件。在本工作中,我们提出采用扩散过程(diffusion procedure)来建模每个标记的概率分布,从而实现自回归模型在连续值空间中的应用。与传统的类别交叉熵损失不同,我们引入了一种新的“扩散损失”(Diffusion Loss)函数来建模每个标记的概率分布。该方法无需依赖离散标记化器,彻底消除了对向量量化步骤的需求。我们在多种场景下评估了该方法的有效性,涵盖标准自回归模型以及广义的掩码自回归(masked autoregressive, MAR)变体。通过摒弃向量量化,我们的图像生成器在保持强大生成性能的同时,兼具序列建模带来的高效性优势。我们期望本工作能推动自回归生成方法在其他连续值领域与应用场景中的进一步探索与应用。代码已开源,地址为:https://github.com/LTH14/mar。