Command Palette

Search for a command to run...

1 个月前

DiffusionNFT:基于前向过程的在线扩散强化

Kaiwen Zheng Huayu Chen Haotian Ye Haoxiang Wang Qinsheng Zhang Kai Jiang Hang Su Stefano Ermon Jun Zhu Ming-Yu Liu

DiffusionNFT:基于前向过程的在线扩散强化

摘要

在线强化学习(Online Reinforcement Learning, RL)在后训练语言模型中发挥了核心作用,但其向扩散模型的拓展仍面临挑战,主要源于难以计算的似然函数。近期研究通过离散化逆向采样过程,实现了类似GRPO的训练方法,然而这些方法继承了若干根本性缺陷,包括求解器的限制、前向与逆向过程不一致,以及与无分类器引导(Classifier-Free Guidance, CFG)的复杂集成问题。本文提出一种新的在线强化学习范式——扩散模型负样本感知微调(Diffusion Negative-aware FineTuning, DiffusionNFT),该方法通过流匹配(flow matching)直接在前向过程中优化扩散模型。DiffusionNFT通过对比正样本与负样本生成结果,隐式定义策略改进方向,自然地将强化信号融入监督学习目标中。该框架不仅支持任意黑箱求解器,无需进行似然估计,且在策略优化过程中仅需干净图像,无需依赖完整的采样轨迹。在与FlowGRPO的直接对比中,DiffusionNFT的训练效率最高可达其25倍,同时完全无需使用CFG。例如,在仅1000步训练内,DiffusionNFT将GenEval得分从0.24提升至0.98,而FlowGRPO需超过5000步且依赖CFG才能达到0.95的得分。此外,通过融合多个奖励模型,DiffusionNFT在所有测试基准上均显著提升了SD3.5-Medium模型的性能。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DiffusionNFT:基于前向过程的在线扩散强化 | 论文 | HyperAI超神经