Command Palette
Search for a command to run...
Xiaoyu Yue Zidong Wang Yuqing Wang Wenlong Zhang Xihui Liu Wanli Ouyang Lei Bai Luping Zhou

摘要
近期研究已证实高质量视觉表征在图像生成中的重要性,并揭示了生成模型在图像理解方面的局限性。作为最初为自然语言设计的生成范式,自回归模型也面临类似的挑战。在本工作中,我们首次系统性地探究了将下一词预测范式应用于视觉领域的机制。我们识别出阻碍高层视觉语义学习的三个关键问题:局部与条件依赖性、跨步骤语义不一致性,以及空间不变性不足。我们证明,通过在训练过程中引入自监督目标,可有效缓解上述问题,从而提出一种全新的训练框架——自引导自回归模型训练(Self-guided Training for AutoRegressive models, ST-AR)。该方法无需依赖预训练的表征模型,显著提升了自回归模型的图像理解能力,并带来了生成质量的改善。具体而言,ST-AR在保持相同采样策略的前提下,使 LlamaGen-L 的 FID 指标提升约 42%,LlamaGen-XL 的 FID 指标提升约 49%。