17 小时前

Yixian Xu Kaiyuan Gao Yuxiang Chen Yilei Chen Zecheng Tang Zihao Liu Zikai Zhou Deqing Li Hao Meng Kuan Cao

摘要

我们提出 Qwen-Image-2.0-RL，一个后训练流水线，应用基于人类反馈的强化学习 (RLHF) 和在线策略蒸馏 (OPD) 来提升 Qwen-Image-2.0 扩散模型的视觉质量和指令遵循能力。为了提供可靠的奖励信号，我们通过微调视觉语言模型构建了任务特定的复合奖励模型，采用点式评分范式和链式思维推理。对于文生图任务，奖励模型覆盖对齐度、美学和肖像保真度维度。对于图像编辑任务，奖励系统解决指令遵循准确性和面部身份保留问题。基于此奖励系统，我们开发了一个可扩展的基于 GRPO 的 RL 训练框架，结合混合无分类器引导 (CFG) 策略以保留预训练知识，通过组内奖励范围过滤进行提示词管理，以及按类别奖励权重校准。为了合并 T2I 和编辑的任务专用 RL 策略，我们提出在线策略蒸馏作为最终训练阶段，通过轨迹级速度匹配将多个教师模型融合到单个学生模型中。广泛评估显示，Qwen-Image-2.0-RL 在 Qwen-Image-Bench 上获得 57.84 总分（比基础模型提高 +2.61），在文生图竞技场 Elo 评分为 1193（+78），图像编辑竞技场为 1349（+93），展示了在美学质量、提示遵循和编辑准确性方面的持续提升。

一句话总结

作者提出了 Qwen-Image-2.0-RL，一个后训练流程，该流程应用基于人类反馈的强化学习（RLHF），使用通过逐点评分和思维链推理微调的复合奖励模型，并通过轨迹级速度匹配进行同策略蒸馏，统一了文本到图像和图像编辑的改进，在 Qwen-Image-Bench 上取得了 $+2.61$ 的整体分数，文本到图像的 Elo 评分为 $1193$ ，图像编辑的 Elo 评分为 $1349$ 。

核心贡献

构建了一个基于 VLM 的复合奖励系统，用于文本到图像和图像编辑任务，通过使用逐点评分和思维链推理对视觉语言模型进行微调，涵盖美学质量、提示遵循度、人像保真度、指令遵循度和视觉一致性。
开发了一个可扩展的基于 GRPO 的强化学习训练框架，采用混合 CFG 策略（仅在 rollout 采样期间应用引导）、通过组内奖励范围过滤进行提示筛选，以及按类别进行奖励权重校准，以稳定大规模流匹配模型训练。
提出了同策略蒸馏，通过轨迹级速度匹配将任务专用的 RL 教师模型统一为单个部署模型，消除了奖励模型依赖和跨任务冲突；由此产生的 Qwen-Image-2.0-RL 超越了混合 RL 基线，在 Qwen-Image-Bench 上取得了 57.84 的整体分数（+2.61），T2I 竞技场的 Elo 评分为 1193（+78），图像编辑竞技场的 Elo 评分为 1349（+93）。

引言

作者解决了扩散模型强大的生成能力与人类审美偏好之间的差距，这一差距是由监督去噪目标留下的，该目标无法捕捉诸如构图、纹理或提示忠实度等细微品质。虽然基于人类反馈的强化学习（RLHF）提供了一条对齐路径，但将其应用于扩散模型面临三个关键挑战：设计跨越文本到图像和图像编辑任务的可靠、任务感知的奖励信号；将 RLHF 扩展到具有多个奖励的全参数训练；以及将任务专用策略整合到单一模型中而不损失质量。作者通过一个统一的后训练流程来解决这些问题，该流程建立在支持思维链的 VLM 奖励套件、具有混合无分类器引导和提示-奖励平衡的可扩展基于 GRPO 的强化学习框架，以及通过轨迹级速度匹配合并专用教师模型的同策略蒸馏方法之上，从而在部署时消除了奖励模型依赖。

数据集

作者构建了两个带标注的数据集来比较奖励模型训练范式，特意共享相同的评估重点（美学质量和视觉纹理），仅在标注格式上有所不同。两个数据集都从最先进的 AIGC 模型的公共池中提取图像，这些图像根据源自高质量人像参考图像的提示生成，并经过语言多样化处理，以超出训练分布。

数据集构成与来源

所有图像都来自同一个 AIGC 生成输出的池，确保比较隔离了训练范式的影响，而非数据分布。
提示从高质量人像参考图像中随机采样，并重写以增加语言多样性。
本摘录中未报告明确的数据集大小；重点在于标注结构和训练用途。

逐点评分子集

每张图像由人类标注者独立评分，采用 5 点李克特量表，涵盖两个维度：质量（清晰度、光照、色彩平衡、风格连贯性、材质纹理）和保真度（结构正确性、物理一致性、无 AI 伪影）。
生成的数据集提供每张图像的绝对分数，用于通过逐点回归损失训练奖励模型（模型输出离散分数分布，奖励为期望值）。

成对比较子集

图像对由相同提示生成，并排呈现以供偏好判断。
标注遵循严格的优先级层次：图文一致性 > 结构失真 > 纹理质量 > 美学吸引力。当两张图像都没有失真且与提示一致时，比较实际上归结为纹理质量和美学吸引力。
每对图像还标注了辅助属性：样本有效性、是否存在文本失真以及是否存在人物失真，以支持细粒度分析。
生成的数据集提供偏好对，用于通过 Bradley-Terry 成对排序损失训练奖励模型。

数据使用方式

两个子集都用于将相同的 VLM 架构微调为奖励模型，一个使用成对损失，另一个使用逐点回归。
在下游基于 RL 的图像生成中，经过逐点训练的奖励模型始终产生更好的视觉质量和更少的伪影，因此作者在最终系统中对所有基于 VLM 的奖励模型采用了逐点范式。

处理细节

未提及裁剪策略或额外的图像预处理。
元数据构建：逐点数据存储每张图像的质量和保真度分数；成对数据存储偏好标签和上述辅助属性。

方法

作者利用一个全面的强化学习框架，使扩散模型与人类偏好对齐，该框架以稳健的奖励建模系统和专用的训练流程为中心。

奖励建模 为了捕捉人类偏好，作者构建了任务专用的复合奖励模型。他们研究了两种用于微调视觉语言模型（VLM）作为奖励评分器的训练范式：成对排序和逐点回归。在成对方法中，模型在偏好与非偏好图像对上最小化 Bradley-Terry 排序损失。相反，逐点范式训练模型直接回归到人类标注的绝对分数。作者确定，逐点训练提供了更丰富的监督信号，与成对方法相比，生成的图像具有始终更好的视觉质量、更精细的纹理细节和更少的伪影。

训练流程与混合 CFG 策略 训练过程将组相对策略优化（GRPO）扩展到流匹配模型。一个关键的架构决策涉及无分类器引导（CFG）的应用。作者系统地评估了三种策略：在 rollout 和训练中都应用 CFG，在两个阶段都移除 CFG，或采用混合方法。在训练期间应用 CFG 会导致严重的不稳定和图像崩溃，而完全省略 CFG 则会导致模型失去风格化能力和世界知识。因此，作者采用了一种混合策略，其中 CFG 仅在 rollout 阶段使用，以生成用于奖励评估的高质量候选样本，而策略优化目标保持无 CFG，以维持稳定的梯度更新。

该流程结合了异步奖励机制，将评分与训练解耦，有效地隐藏了网络延迟。组相对优势通过加权求和与每组提示归一化计算： $A(\boldsymbol{x}_0^{(i)}, c) = \sum_{k=1}^K w_k \cdot \frac{R_k(\boldsymbol{x}_0^{(i)}, c) - \mu_k}{\sigma_k}$ 这确保了复合奖励对各个奖励模型之间的绝对尺度差异具有不变性。任务特定的优化包括将训练信号限制在高噪声时间步，以防止奖励破解，并筛选出表现出足够奖励方差的提示，以确保有意义的策略改进。

同策略蒸馏 为了解决 RL 优化产生任务专用策略（例如，文本到图像生成和图像编辑的单独模型）的局限性，作者引入了同策略蒸馏（OPD）。该方法通过轨迹级速度匹配，将多个任务专用的教师模型统一到一个学生模型中。学生模型生成完整的去噪轨迹，并经过训练以匹配每个步骤中相应任务教师模型的速度预测： $\mathcal{L}_{\mathrm{OPD}} = \mathbb{E}_{c, \boldsymbol{x}_{[1:N]} \sim \pi_{\theta}(\cdot|c)} \left[ \sum_{n=1}^N \left\| \boldsymbol{v}_{\theta}(\boldsymbol{x}_{t_n}, t_n, c) - \boldsymbol{v}_{\theta^*}(\boldsymbol{x}_{t_n}, t_n, c) \right\|^2 \right]$ 这种分解策略避免了在混合任务（Mix-RL）上联合训练所固有的优化冲突。与预训练基础模型和 Mix-RL 基线相比，最终的统一模型在提示遵循度、美学质量和身份保持方面取得了更优的表现。

对于图像编辑任务，该框架集成了一个专用的基于模型的面部身份一致性评分器，以及基于 VLM 的指令遵循奖励。这确保了在复杂编辑（如风格迁移或属性修改）过程中保留细粒度的身份特征，使模型能够准确地执行指令，同时保持主体的原始特征。

实验

评估涵盖了自动化质量指标和人类偏好竞技场。RL 训练在 Qwen-Image-2.0 的所有维度上持续改进，其中创意生成、真实世界保真度、3D 建模和照片真实感的提升最大。图像编辑竞技场也显示出显著的增益，证实了编辑特定 RL 训练的有效性。

强化学习训练将 Qwen-Image-2.0 在 Qwen-Image-Bench 上的整体分数从 55.23 提升到 57.84，在所有五个评估支柱上都有持续的增益。最大的改进出现在创意生成和真实世界保真度方面，使经过 RL 训练的模型成为所有比较系统中最强的表现者。创意生成从 RL 中受益最多，提高了 6.72 分，凸显了增强的想象力能力。真实世界保真度提高了 4.29 分，反映了更好的结构一致性和精细细节渲染。

强化学习训练提高了 Qwen-Image-2.0 在 Qwen-Image-Bench 上的整体表现，在所有评估支柱上产生了持续的增益。最大的改进出现在创意生成和真实世界保真度方面，使经过 RL 训练的模型成为比较系统中最强的表现者。这些增益反映了增强的想象力能力、更好的结构一致性和更精细的细节渲染。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

17 小时前

Yixian Xu Kaiyuan Gao Yuxiang Chen Yilei Chen Zecheng Tang Zihao Liu Zikai Zhou Deqing Li Hao Meng Kuan Cao

摘要

一句话总结

核心贡献

构建了一个基于 VLM 的复合奖励系统，用于文本到图像和图像编辑任务，通过使用逐点评分和思维链推理对视觉语言模型进行微调，涵盖美学质量、提示遵循度、人像保真度、指令遵循度和视觉一致性。
开发了一个可扩展的基于 GRPO 的强化学习训练框架，采用混合 CFG 策略（仅在 rollout 采样期间应用引导）、通过组内奖励范围过滤进行提示筛选，以及按类别进行奖励权重校准，以稳定大规模流匹配模型训练。
提出了同策略蒸馏，通过轨迹级速度匹配将任务专用的 RL 教师模型统一为单个部署模型，消除了奖励模型依赖和跨任务冲突；由此产生的 Qwen-Image-2.0-RL 超越了混合 RL 基线，在 Qwen-Image-Bench 上取得了 57.84 的整体分数（+2.61），T2I 竞技场的 Elo 评分为 1193（+78），图像编辑竞技场的 Elo 评分为 1349（+93）。

引言

数据集

数据集构成与来源

所有图像都来自同一个 AIGC 生成输出的池，确保比较隔离了训练范式的影响，而非数据分布。
提示从高质量人像参考图像中随机采样，并重写以增加语言多样性。
本摘录中未报告明确的数据集大小；重点在于标注结构和训练用途。

逐点评分子集

每张图像由人类标注者独立评分，采用 5 点李克特量表，涵盖两个维度：质量（清晰度、光照、色彩平衡、风格连贯性、材质纹理）和保真度（结构正确性、物理一致性、无 AI 伪影）。
生成的数据集提供每张图像的绝对分数，用于通过逐点回归损失训练奖励模型（模型输出离散分数分布，奖励为期望值）。

成对比较子集

图像对由相同提示生成，并排呈现以供偏好判断。
标注遵循严格的优先级层次：图文一致性 > 结构失真 > 纹理质量 > 美学吸引力。当两张图像都没有失真且与提示一致时，比较实际上归结为纹理质量和美学吸引力。
每对图像还标注了辅助属性：样本有效性、是否存在文本失真以及是否存在人物失真，以支持细粒度分析。
生成的数据集提供偏好对，用于通过 Bradley-Terry 成对排序损失训练奖励模型。

数据使用方式

两个子集都用于将相同的 VLM 架构微调为奖励模型，一个使用成对损失，另一个使用逐点回归。
在下游基于 RL 的图像生成中，经过逐点训练的奖励模型始终产生更好的视觉质量和更少的伪影，因此作者在最终系统中对所有基于 VLM 的奖励模型采用了逐点范式。

处理细节

未提及裁剪策略或额外的图像预处理。
元数据构建：逐点数据存储每张图像的质量和保真度分数；成对数据存储偏好标签和上述辅助属性。

方法

作者利用一个全面的强化学习框架，使扩散模型与人类偏好对齐，该框架以稳健的奖励建模系统和专用的训练流程为中心。

实验

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Qwen-Image-2.0-RL 技术报告

Yixian Xu Kaiyuan Gao Yuxiang Chen Yilei Chen Zecheng Tang Zihao Liu Zikai Zhou Deqing Li Hao Meng Kuan Cao18 more

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Qwen-Image-2.0-RL 技术报告

Yixian Xu Kaiyuan Gao Yuxiang Chen Yilei Chen Zecheng Tang Zihao Liu Zikai Zhou Deqing Li Hao Meng Kuan Cao18 more

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Qwen-Image-2.0-RL 技术报告

Yixian Xu Kaiyuan Gao Yuxiang Chen Yilei Chen Zecheng Tang Zihao Liu Zikai Zhou Deqing Li Hao Meng Kuan Cao18 more

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Yixian Xu Kaiyuan Gao Yuxiang Chen Yilei Chen Zecheng Tang Zihao Liu Zikai Zhou Deqing Li Hao Meng Kuan Cao

Yixian Xu Kaiyuan Gao Yuxiang Chen Yilei Chen Zecheng Tang Zihao Liu Zikai Zhou Deqing Li Hao Meng Kuan Cao

Yixian Xu Kaiyuan Gao Yuxiang Chen Yilei Chen Zecheng Tang Zihao Liu Zikai Zhou Deqing Li Hao Meng Kuan Cao