Command Palette
Search for a command to run...
Kaiwen Zheng Huayu Chen Haotian Ye Haoxiang Wang Qinsheng Zhang Kai Jiang Hang Su Stefano Ermon Jun Zhu Ming-Yu Liu

摘要
在线强化学习(Online Reinforcement Learning, RL)在后训练语言模型中发挥了核心作用,但其向扩散模型的拓展仍面临挑战,主要源于难以计算的似然函数。近期研究通过离散化逆向采样过程,实现了类似GRPO的训练方法,然而这些方法继承了若干根本性缺陷,包括求解器的限制、前向与逆向过程不一致,以及与无分类器引导(Classifier-Free Guidance, CFG)的复杂集成问题。本文提出一种新的在线强化学习范式——扩散模型负样本感知微调(Diffusion Negative-aware FineTuning, DiffusionNFT),该方法通过流匹配(flow matching)直接在前向过程中优化扩散模型。DiffusionNFT通过对比正样本与负样本生成结果,隐式定义策略改进方向,自然地将强化信号融入监督学习目标中。该框架不仅支持任意黑箱求解器,无需进行似然估计,且在策略优化过程中仅需干净图像,无需依赖完整的采样轨迹。在与FlowGRPO的直接对比中,DiffusionNFT的训练效率最高可达其25倍,同时完全无需使用CFG。例如,在仅1000步训练内,DiffusionNFT将GenEval得分从0.24提升至0.98,而FlowGRPO需超过5000步且依赖CFG才能达到0.95的得分。此外,通过融合多个奖励模型,DiffusionNFT在所有测试基准上均显著提升了SD3.5-Medium模型的性能。