Command Palette

Search for a command to run...

1 个月前

直接对齐完整扩散轨迹与细粒度人类偏好

Xiangwei Shen Zhimin Li Zhantao Yang Shiyi Zhang et al

直接对齐完整扩散轨迹与细粒度人类偏好

摘要

近期研究已证明,通过可微分奖励直接对齐扩散模型与人类偏好具有显著效果。然而,这类方法仍面临两大主要挑战:(1)依赖多步去噪过程结合梯度计算进行奖励评分,计算开销较大,导致优化仅限于少量扩散步骤;(2)通常需要对奖励模型进行持续的离线微调,以实现理想的美学质量,例如照片级真实感或精确的光照效果。为解决多步去噪的局限性,我们提出 Direct-Align 方法,该方法通过预定义噪声先验,利用扩散状态在噪声与目标图像之间的插值特性,实现从任意时间步高效恢复原始图像,从而有效避免晚期时间步的过度优化。此外,我们引入语义相对偏好优化(Semantic Relative Preference Optimization, SRPO),将奖励建模为文本条件信号。该方法能够根据正向与负向提示增强实现奖励的在线调整,显著降低对离线奖励微调的依赖。通过结合优化的去噪过程与在线奖励调整,对 FLUX 模型进行微调后,其在人类评估中的真实感与美学质量提升超过三倍。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供