5 个月前

计算机视觉

Xiaoyu Yue Zidong Wang Yuqing Wang Wenlong Zhang Xihui Liu Wanli Ouyang Lei Bai Luping Zhou

摘要

近期研究已证实高质量视觉表征在图像生成中的重要性，并揭示了生成模型在图像理解方面的局限性。作为最初为自然语言设计的生成范式，自回归模型也面临类似的挑战。在本工作中，我们首次系统性地探究了将下一词预测范式应用于视觉领域的机制。我们识别出阻碍高层视觉语义学习的三个关键问题：局部与条件依赖性、跨步骤语义不一致性，以及空间不变性不足。我们证明，通过在训练过程中引入自监督目标，可有效缓解上述问题，从而提出一种全新的训练框架——自引导自回归模型训练（Self-guided Training for AutoRegressive models, ST-AR）。该方法无需依赖预训练的表征模型，显著提升了自回归模型的图像理解能力，并带来了生成质量的改善。具体而言，ST-AR在保持相同采样策略的前提下，使 LlamaGen-L 的 FID 指标提升约 42%，LlamaGen-XL 的 FID 指标提升约 49%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

计算机视觉

Xiaoyu Yue Zidong Wang Yuqing Wang Wenlong Zhang Xihui Liu Wanli Ouyang Lei Bai Luping Zhou

摘要

近期研究已证实高质量视觉表征在图像生成中的重要性，并揭示了生成模型在图像理解方面的局限性。作为最初为自然语言设计的生成范式，自回归模型也面临类似的挑战。在本工作中，我们首次系统性地探究了将下一词预测范式应用于视觉领域的机制。我们识别出阻碍高层视觉语义学习的三个关键问题：局部与条件依赖性、跨步骤语义不一致性，以及空间不变性不足。我们证明，通过在训练过程中引入自监督目标，可有效缓解上述问题，从而提出一种全新的训练框架——自引导自回归模型训练（Self-guided Training for AutoRegressive models, ST-AR）。该方法无需依赖预训练的表征模型，显著提升了自回归模型的图像理解能力，并带来了生成质量的改善。具体而言，ST-AR在保持相同采样策略的前提下，使 LlamaGen-L 的 FID 指标提升约 42%，LlamaGen-XL 的 FID 指标提升约 49%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供