
摘要
基于潜在空间的图像生成模型,如潜在扩散模型(Latent Diffusion Models, LDMs)和掩码图像模型(Mask Image Models, MIMs),在图像生成任务中取得了显著的成功。这些模型通常利用重构自编码器(如VQGAN或VAE)将像素编码到一个更为紧凑的潜在空间中,并在该潜在空间中学习数据分布,而不是直接从像素中学习。然而,这一做法引发了一个重要的问题:这是否真的是最优选择?对此,我们首先提出了一个有趣的观察结果:尽管共享相同的潜在空间,自回归模型在图像生成方面明显落后于LDMs和MIMs。这一发现与自然语言处理(NLP)领域的现状形成了鲜明对比,在NLP领域,自回归模型GPT已经确立了主导地位。为了解决这一差异,我们引入了一种关于潜在空间与生成模型之间关系的统一视角,强调了潜在空间在图像生成建模中的稳定性。此外,我们提出了一种简单但有效的离散图像分词器,以稳定用于图像生成建模的潜在空间。实验结果表明,使用我们的分词器(DiGIT)进行图像自回归建模不仅有助于图像理解,还能通过下一个标记预测原则提升图像生成效果。这一原则对GPT模型来说是固有的且简单的,但对于其他生成模型则较为困难。值得注意的是,这是首次一种类似GPT的图像自回归模型在性能上超过了LDMs,并且当扩大模型规模时,其性能也表现出类似于GPT的显著提升。我们的研究结果突显了优化潜在空间以及离散分词集成在提升图像生成模型能力方面的潜力。代码可在https://github.com/DAMO-NLP-SG/DiGIT 获取。