HyperAI超神经

T2I-R1:通过协作语义级和标记级 CoT 来强化图像生成

Dongzhi Jiang, Ziyu Guo, Renrui Zhang, Zhuofan Zong, Hao Li, Le Zhuo, Shilin Yan, Pheng-Ann Heng, Hongsheng Li
发布日期: 5/8/2025
T2I-R1:通过协作语义级和标记级 CoT 来强化图像生成
摘要

大型语言模型的最新进展已经证明了思维链 (CoT) 和强化学习 (RL) 如何提升性能。然而,将此类推理策略应用于视觉生成领域仍鲜有探索。本文提出了 T2I-R1,这是一种新颖的推理增强型文本到图像生成模型,它由具有双层 CoT 推理过程的 RL 驱动。具体而言,我们确定了两个可用于增强不同生成阶段的 CoT 级别:(1) 用于提示高级规划的语义级别 CoT;(2) 用于逐块生成过程中低级像素处理的 token 级别 CoT。为了更好地协调这两个级别的 CoT,我们引入了具有生成奖励集合的 BiCoT-GRPO,它可以在同一训练步骤中无缝优化两个生成 CoT。通过将我们的推理策略应用于基线模型 Janus-Pro,我们取得了卓越的性能,在 T2I-CompBench 上提升了 13%,在 WISE 基准上提升了 19%,甚至超越了最先进的模型 FLUX.1。代码可从此https 链接获取。