Command Palette
Search for a command to run...
利用基于验证器的强化学习进行图像编辑
利用基于验证器的强化学习进行图像编辑
Hanzhong Guo Jie Wu Jie Liu Yu Gao Zilyu Ye Linxiao Yuan Xionghui Wang Yizhou Yu Weilin Huang
摘要
尽管基于人类反馈的强化学习(RLHF)已成为文生图生成的核心范式,但其图像编辑领域的应用仍鲜有探索。主要的瓶颈在于缺乏一种能够适用于所有编辑任务的稳健通用奖励模型。现有的编辑奖励模型通常仅提供整体评分而缺乏细粒度检查,往往忽视不同指令的具体要求,从而导致奖励信号产生偏差。针对这一问题,我们认为关键在于从简单的评分器转变为推理验证器。为此,我们引入了 Edit-R1,这是一个构建基于思维链(CoT)验证器的推理奖励模型(Reasoning Reward Model, RRM),并将其应用于下游图像编辑任务的框架。Edit-RRM 将指令分解为不同的原则,针对每一原则评估编辑后的图像,并将这些检查结果聚合为一个可解释的、细粒度的奖励。为了构建此类 RRM,我们首先应用监督微调(SFT)作为“冷启动”以生成 CoT 奖励轨迹。随后,我们引入了群体对比偏好优化(Group Contrastive Preference Optimization, GCPO),这是一种利用人类成对偏好数据来增强我们单点 RRM 的强化学习算法。在构建 RRM 后,我们利用 GRPO 训练编辑模型,以使用该不可微但功能强大的奖励模型。大量实验表明,我们的 Edit-RRM 作为编辑专用的奖励模型,其性能超越了 Seed-1.5-VL 和 Seed-1.6-VL 等强大的视觉语言模型(VLM)。我们观察到了明显的缩放效应(scaling trend),即随着参数量从 3B 增长至 7B,性能持续提升。此外,Edit-R1 显著提升了 FLUX.1-kontext 等编辑模型的性能,突显了其在增强图像编辑方面的有效性。
一句话总结
作者提出了 Edit-R1,这是一种用于图像编辑的强化学习框架。该框架使用基于思维链验证器的推理奖励模型替代了通用的奖励评分器,将指令分解为独立原则以进行细粒度评估,并利用组对比偏好优化(Group Contrastive Preference Optimization)训练可解释的奖励模型,其性能优于现有的视觉语言模型。
核心贡献
- Edit-R1 建立了一种基于验证器的推理范式,将图像编辑奖励建模从整体评分转向原则分解。通过对每个原则生成思维链分析,该模型能够为多样化的视觉编辑任务提供结构化且可解释的反馈。
- 为使该推理模型与人类偏好保持一致,该方法采用了组对比偏好优化(GCPO)算法。这是一种强化学习算法,通过对比获胜与失败轨迹组来优化模型。该方法在优化奖励对齐的同时,规避了先前偏好优化技术所固有的可微性要求及奖励黑客风险。
- 评估结果表明,生成的 7B 参数奖励模型在 EditRewardBench 基准上超越了领先的视觉语言模型及现有基线模型。当将其集成到 GRPO 训练循环中时,该系统在 FLUX.1-kontext 和 Qwen-Image-Edit 等先进图像编辑器上带来了显著的性能提升。
引言
基于扩散模型的现代图像编辑技术进展迅速,但在采用人类反馈强化学习(RLHF)进行模型对齐方面,仍落后于文生图技术。先前方法主要依赖监督微调,并将奖励模型视为通过通用视觉语言模型输出单一分数的整体评分器。这种简化的评分方式无法捕捉指令保真度、未编辑区域保留等细微的编辑需求,经常产生带有偏见或幻觉的反馈。此外,标准强化学习算法难以优化这些模型,因为基于推理的奖励信号本质上不可微。为克服这些障碍,作者提出了 Edit-R1 框架。该框架使用基于验证器的推理奖励模型替代了整体评分,将编辑提示词分解为可验证的原则,生成结构化的思维链分析,并利用新颖的组对比偏好优化算法对模型进行训练。生成的奖励模型随后在基于 GRPO 的强化学习循环中充当可靠的验证器,为下游图像编辑系统带来显著的性能提升。
数据集
- 数据集构成与来源: 作者通过整理公开图像编辑基准中的 20 万条样本,构建了一个用于冷启动推理奖励模型的监督数据集。该初始集合通过多模型生成与系统性验证,扩展至约 200 万条数据四元组。
- 子集详情: 数据集被划分为两个各含 10 万条样本的子集。Random 子集直接从基准中提取,以捕捉编辑任务的一般分布。Hard 子集使用 GPT-4o 进行过滤,仅保留需要多步视觉修改、细粒度细节调整、隐式语义理解或精确空间控制的复杂指令,并明确排除简单的单步编辑。
- 数据处理与元数据构建: 每个样本初始状态为参考图像与编辑指令的配对。作者使用 Seed-1.5-VL API 将这些指令分解为涵盖保留要求、必要修改及整体质量的验证原则。随后,他们利用 Flux-Kontext、Bagel 和 SeedEdit3.0 等模型生成多样化的编辑候选结果,构成包含编辑后图像、参考图像、指令及原则集的数据四元组。视觉语言模型结合思维链提示处理这些四元组,生成逐点原则验证结果与加权最终得分。通过调整系统提示词、采样温度及模型变体,生成多条推理轨迹。外部验证器根据原则对每条轨迹重新评估以计算准确率,仅保留准确率最高的推理轨迹。
- 使用与训练流程: 该精心构建的数据集作为初始监督微调数据,用于冷启动推理奖励模型。处理后的四元组、原则集、推理轨迹及最终得分被用于训练模型,使其掌握准确的验证与评分能力。在后续的偏好优化阶段,训练好的奖励模型为每张图像生成多个思考-得分候选项,通过两两比较计算胜率与败率,并结合加权优势值用于策略优化。
方法
提出的 Edit-R1 框架核心在于基于验证器的推理奖励模型(RRM),该模型旨在通过细粒度且可解释的反馈来评估图像编辑输出。如图所示的整体架构包含两个主要阶段:冷启动监督微调(SFT)阶段,以及使用新型优化算法的强化学习(RL)精炼阶段。RRM 作为一个逐点生成的模型,根据从编辑指令分解出的一组原则来评估编辑后的图像。该过程始于将指令分解为独立的评价点,随后用于引导 RRM 的思维链(CoT)推理。RRM 依据这些原则分析编辑后的图像,为每项评估生成详细的文本论证,并最终输出一个整体评分。
RRM 的训练分为两个阶段。第一阶段为“冷启动”SFT,旨在构建用于初始训练的大规模数据集。该阶段通过基于 VLM 的验证流程生成高质量、细粒度的评估数据。如图所示,一个强大的 VLM 充当验证器,依据源图像、编辑图像、指令及候选 CoT 轨迹池,为每个评价点生成金标准判断。第二个 VLM 随后充当选择器,基于这些经过验证的判断客观地选出表现最佳的候选项。该流程确保了训练数据的质量。SFT 阶段训练 RRM 生成 CoT 奖励轨迹,为模型提供基于理据的初始起点。
第二阶段通过一种名为组对比偏好优化(GCPO)的新型强化学习算法,利用人类成对偏好数据对 RRM 进行精炼。该阶段对于使模型判断与人类偏好保持一致至关重要。RRM 被视为待优化的策略,其动作由生成的推理轨迹和最终得分组成。偏好数据集的构建方式为向人类标注者展示源图像、指令及一对编辑图像,并要求其选择更优图像。对于每个偏好对,奖励模型会为每张图像生成多条推理轨迹与得分。胜率/败率奖励通过比较优选图像与非优选图像的得分计算得出,忽略平局情况。GCPO 目标函数随后在每个 rollout 组(优选与非优选)内计算期望优势,并使用截断代理损失以防止策略发生过大更新。这使得 RRM 能够从输出的相对质量中学习,而无需依赖单一绝对分数。
最后,训练好的 RRM 被集成到标准的组相对策略优化(GRPO)算法中,用于训练下游图像编辑模型。编辑模型充当策略,为给定上下文生成一组编辑图像。RRM 对组内每张图像进行评估,提供细粒度得分。每张图像的优势值通过将其奖励相对于组的均值和标准差进行归一化来计算。GRPO 目标函数通过最大化期望优势,并结合截断目标函数与 KL 散度惩罚项,确保策略更新稳定且有效,从而直接针对人类感知质量与指令保真度对编辑模型进行优化。
实验
评估设置采用精心构建的人类成对偏好基准,并结合标准化自动指标,对奖励模型与优化后的图像编辑框架进行全面评估。实验验证了结合基于推理的数据构建与偏好对齐的两阶段训练流程,能够生成更严格、更可靠的评估器,显著提升对人类偏好的预测能力。定性分析进一步表明,使用该精炼奖励信号优化编辑模型,能够稳定提升指令遵循度、视觉保真度与特征保留率,尤其在复杂编辑场景中效果显著。最终,该框架有效缓解了常见的幻觉与属性泄漏问题,证实了精确的奖励建模是高质量图像生成的强劲催化剂。
作者通过对比不同配置与阶段,评估了奖励模型训练流程。结果表明,包含 GCPO 的完整两阶段方法取得了最高性能,其中 Qwen-7B 模型优于其他变体与闭源基线。该训练策略强调基于原则的数据构建与人类对齐,从而提升了奖励模型的准确性。带有 GCPO 的完整两阶段训练流程在所有评估模型中达到了最高准确率。使用完整流程训练的 Qwen-7B 优于较小规模的变体及闭源基线。基于原则的数据构建以及推理与验证组件的引入,显著提升了模型准确率。
作者通过 Edit-R1 框架优化 FLUX.Kontext 模型,以评估奖励模型的性能。结果显示,相较于基线,优化模型在人类评估中取得了显著提升,该提升通过 GSB 分数进行衡量。这表明奖励模型有效引导了编辑流程,从而生成更符合人类偏好的输出。优化后的 FLUX.Kontext 模型获得了 +23.2 的 GSB 分数,显示出对人类偏好的强烈契合。奖励模型成功引导编辑流程生成更贴合用户指令的输出。人类评估分数的提升证明了该奖励模型在提高图像编辑质量方面的有效性。
作者在不同基准上评估了奖励模型与图像编辑框架,证明了其在各类编辑任务中语义一致性与感知质量的提升。结果表明,该方法持续优于基线模型,尤其在运动变化与主体操作等挑战性任务中表现突出。当使用精炼后的奖励模型进行策略优化时,性能提升尤为显著。该框架在公开基准上也取得了优异表现,表明其在对齐人类偏好方面具有高效性。该框架在各类编辑任务的语义一致性与感知质量上均取得卓越性能,尤其在运动变化与主体操作等复杂任务中。使用 GCPO 精炼奖励模型带来了持续更高的评估奖励,表明其与人类偏好的对齐程度得到改善。该方法在公开基准上表现强劲,在总体指标与类别特定指标上均超越了现有模型。
作者分析了图像编辑优化过程中奖励模型的训练动态,对比了带与不带强化学习精炼步骤的模型。结果表明,经过该步骤精炼的模型提供了更稳定且有效的奖励信号,从而获得更高的评估奖励并提升图像编辑任务性能。精炼过程还使奖励模型充当更严格的评估器,帮助编辑模型更好地遵循人类偏好。相比初始的监督学习模型,经过强化学习精炼的模型能产生更稳定有效的奖励信号。精炼后的奖励模型带来了更高的评估奖励,表明其与人类偏好的对齐程度更好。精炼过程将奖励模型转化为更严格的评估器,从而提升了生成编辑的质量。
作者在一个用于预测图像编辑任务中人类偏好的基准上,评估了奖励模型的性能。结果表明,该方法结合了监督微调与使用 GCPO 的后训练阶段,相较于基线模型及仅使用 SFT 的版本,取得了更高的准确率。GCPO 带来的性能提升表明,精炼后的奖励模型提供了更严格且可靠的监督。所提出的奖励模型准确率高于基线模型与仅 SFT 版本。GCPO 带来的性能增益表明,精炼后的奖励模型充当了更严格且更稳健的评估器。该方法通过提升准确率及更好地对齐人类偏好,证明了其有效性。
作者在多个图像编辑基准上评估了奖励模型流程,对比了多种训练配置,以验证基于原则的数据构建与强化学习精炼的影响。实验表明,包含 GCPO 的完整两阶段方法持续优于基线模型,其生成的更稳定且严格的奖励信号能够可靠地预测人类偏好。该精炼评估框架有效引导了编辑流程,提升了语义一致性与感知质量,尤其在复杂操作任务中。最终,结果证实了结构化的奖励模型优化显著提升了偏好预测的可靠性,并增强了生成输出与人类意图的整体对齐程度。