HyperAI超神经
a day ago

X-Omni:强化学习让离散自回归图像生成模型重放光彩

Zigang Geng, Yibing Wang, Yeyao Ma, Chen Li, Yongming Rao, Shuyang Gu, Zhao Zhong, et al
X-Omni:强化学习让离散自回归图像生成模型重放光彩
摘要

众多研究尝试将“下一个词预测”范式扩展至视觉内容,旨在构建一种统一的方法,实现图像生成与理解的融合。然而,通过离散标记进行自回归建模来生成图像的尝试,仍面临诸多问题,如视觉保真度低、输出结果失真,以及在渲染复杂细节时无法准确遵循复杂指令。这些缺陷可能源于自回归推理过程中的累积误差,或在离散化过程中造成的信息损失。正因这一挑战,近期研究越来越多地转向联合训练图像生成(采用扩散模型目标)与语言生成(采用自回归目标)的策略,逐渐远离统一建模的路径。在本工作中,我们证明了强化学习能够有效缓解伪影问题,并显著提升离散自回归建模方法的生成质量,从而实现图像与语言生成的无缝融合。我们的框架包括一个语义图像分词器、一个统一的自回归模型(用于语言与图像)、以及一个离线扩散解码器,整体系统命名为 X-Omni。X-Omni 采用一个 70 亿参数的语言模型,在图像生成任务中达到了当前最优性能,生成的图像具有高美学质量,同时展现出强大的指令遵循能力与长文本渲染能力。