Command Palette

Search for a command to run...

2 个月前

Pref-GRPO:基于成对偏好奖励的GRPO用于稳定文本到图像强化学习

Yibin Wang Zhimin Li Yuhang Zang Yujie Zhou Jiazi Bu Chunyu Wang Qinglin Lu Cheng Jin Jiaqi Wang

Pref-GRPO:基于成对偏好奖励的GRPO用于稳定文本到图像强化学习

摘要

近期进展凸显了基于GRPO的强化学习方法及其基准测试在提升文本到图像(T2I)生成质量中的重要性。然而,当前采用逐点奖励模型(Reward Model, RM)对生成图像进行评分的方法容易受到奖励欺骗(reward hacking)的影响。我们发现,当图像之间的评分差异极小时,经过归一化处理后这些微小差异会被放大,从而产生虚假的优势信号,导致模型过度优化于微不足道的得分提升,最终破坏图像生成过程的稳定性。为解决这一问题,我们提出Pref-GRPO——一种基于成对偏好奖励的GRPO方法,其将优化目标从单纯最大化评分转变为拟合人类偏好,从而实现更稳定的训练过程。在Pref-GRPO中,同一组内的图像通过偏好奖励模型进行成对比较,以“胜率”作为奖励信号。大量实验表明,Pref-GRPO能够有效区分图像质量的细微差异,提供更稳定、可靠的奖励优势,显著缓解了奖励欺骗问题。此外,现有T2I评估基准受限于粗粒度的评价标准,难以全面评估模型性能。为此,我们提出UniGenBench——一个统一的T2I评估基准,涵盖5个主要主题与20个子主题,共600个测试提示(prompts)。该基准通过10项核心指标与27项子指标评估语义一致性,并利用多模态大语言模型(MLLM)辅助完成基准的构建与评估。我们的实验结果揭示了开源与闭源T2I模型各自的优劣势,并验证了Pref-GRPO方法的有效性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Pref-GRPO:基于成对偏好奖励的GRPO用于稳定文本到图像强化学习 | 论文 | HyperAI超神经