Flow-GRPO:通过在线强化学习训练流匹配模型
Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang
发布日期: 5/13/2025

摘要
我们提出了Flow-GRPO,这是首个将在线强化学习(RL)集成到流匹配模型中的方法。我们的方法采用了两个关键策略:(1)ODE到SDE的转换,即将确定性的常微分方程(ODE)转化为一个等价的随机微分方程(SDE),以在所有时间步上匹配原始模型的边缘分布,从而为强化学习探索提供统计采样;(2)去噪缩减策略,该策略在减少训练去噪步骤的同时保留了原始推理时间步的数量,显著提高了采样效率而不会降低性能。实验证明,Flow-GRPO在多个文本到图像任务中表现出色。对于复杂的组合任务,经过RL调优的SD3.5几乎完美地生成了正确的对象数量、空间关系和细粒度属性,将GenEval准确率从63%提升至95%。在视觉文本渲染方面,其准确率从59%提高到92%,显著增强了文本生成的效果。此外,Flow-GRPO在人类偏好对齐方面也取得了显著进展。值得注意的是,在实验过程中几乎没有发生奖励操纵现象,这意味着图像质量和多样性没有因奖励增加而受损,并且两者都保持稳定。