Command Palette
Search for a command to run...
Xin Luo Jiahao Wang Chenyuan Wu Shitao Xiao Xiyan Jiang Defu Lian Jiajun Zhang Dong Liu Zheng Liu

摘要
指令引导的图像编辑已取得显著进展,但现有模型在处理复杂指令时仍面临挑战,通常需要多次尝试才能获得理想结果。强化学习(Reinforcement Learning, RL)为此提供了一条有前景的解决方案,然而其在图像编辑领域的应用却因缺乏高保真、高效的奖励信号而受到严重制约。本文提出了一套全面的方法论,旨在突破这一瓶颈,核心在于开发一种先进的、专用的奖励模型。我们首先引入 EditReward-Bench,这是一个系统化的基准测试平台,用于全面评估奖励模型在图像编辑质量方面的表现。基于该基准,我们构建了 EditScore 系列奖励模型(涵盖 7B 至 72B 参数规模),用于评估指令引导图像编辑的质量。通过精心的数据筛选与清洗,EditScore 的性能可与训练专用视觉语言模型(VLMs)相媲美。此外,结合针对 EditScore 生成特性设计的高效自集成策略,我们最大的模型版本甚至在基准测试中超越了 GPT-5 的表现。我们进一步证明,高保真的奖励模型是实现图像编辑中在线强化学习的关键。实验表明,尽管当前最大的开源 VLM 无法提供有效的学习信号,而 EditScore 却能实现高效且稳健的策略优化。将该框架应用于强大的基础模型 OmniGen2 后,最终得到的模型展现出显著且一致的性能提升。总体而言,本工作首次系统性地打通了从基准测试、奖励建模到强化学习训练的完整路径,充分证明:一个高保真、领域专用的奖励模型,是释放强化学习在图像编辑领域全部潜力的核心所在。