Command Palette

Search for a command to run...

1 个月前

生成之前先理解:自引导训练用于自回归图像生成

Xiaoyu Yue Zidong Wang Yuqing Wang Wenlong Zhang Xihui Liu Wanli Ouyang Lei Bai Luping Zhou

生成之前先理解:自引导训练用于自回归图像生成

摘要

近期研究已证实高质量视觉表征在图像生成中的重要性,并揭示了生成模型在图像理解方面的局限性。作为最初为自然语言设计的生成范式,自回归模型也面临类似的挑战。在本工作中,我们首次系统性地探究了将下一词预测范式应用于视觉领域的机制。我们识别出阻碍高层视觉语义学习的三个关键问题:局部与条件依赖性、跨步骤语义不一致性,以及空间不变性不足。我们证明,通过在训练过程中引入自监督目标,可有效缓解上述问题,从而提出一种全新的训练框架——自引导自回归模型训练(Self-guided Training for AutoRegressive models, ST-AR)。该方法无需依赖预训练的表征模型,显著提升了自回归模型的图像理解能力,并带来了生成质量的改善。具体而言,ST-AR在保持相同采样策略的前提下,使 LlamaGen-L 的 FID 指标提升约 42%,LlamaGen-XL 的 FID 指标提升约 49%。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供