1 个月前

DiffusionNFT：基于前向过程的在线扩散强化

Kaiwen Zheng Huayu Chen Haotian Ye Haoxiang Wang Qinsheng Zhang Kai Jiang Hang Su Stefano Ermon Jun Zhu Ming-Yu Liu

摘要

在线强化学习（Online Reinforcement Learning, RL）在后训练语言模型中发挥了核心作用，但其向扩散模型的拓展仍面临挑战，主要源于难以计算的似然函数。近期研究通过离散化逆向采样过程，实现了类似GRPO的训练方法，然而这些方法继承了若干根本性缺陷，包括求解器的限制、前向与逆向过程不一致，以及与无分类器引导（Classifier-Free Guidance, CFG）的复杂集成问题。本文提出一种新的在线强化学习范式——扩散模型负样本感知微调（Diffusion Negative-aware FineTuning, DiffusionNFT），该方法通过流匹配（flow matching）直接在前向过程中优化扩散模型。DiffusionNFT通过对比正样本与负样本生成结果，隐式定义策略改进方向，自然地将强化信号融入监督学习目标中。该框架不仅支持任意黑箱求解器，无需进行似然估计，且在策略优化过程中仅需干净图像，无需依赖完整的采样轨迹。在与FlowGRPO的直接对比中，DiffusionNFT的训练效率最高可达其25倍，同时完全无需使用CFG。例如，在仅1000步训练内，DiffusionNFT将GenEval得分从0.24提升至0.98，而FlowGRPO需超过5000步且依赖CFG才能达到0.95的得分。此外，通过融合多个奖励模型，DiffusionNFT在所有测试基准上均显著提升了SD3.5-Medium模型的性能。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

DiffusionNFT：基于前向过程的在线扩散强化

Kaiwen Zheng Huayu Chen Haotian Ye Haoxiang Wang Qinsheng Zhang Kai Jiang Hang Su Stefano Ermon Jun Zhu Ming-Yu Liu

摘要

用 AI 构建 AI

Hyper Newsletters