HyperAI超神经

DRAGON:分布奖励优化扩散生成模型

Yatong Bai, Jonah Casebeer, Somayeh Sojoudi, Nicholas J. Bryan
发布日期: 4/23/2025
DRAGON:分布奖励优化扩散生成模型
摘要

我们提出了用于生成优化的分布奖励框架(Distributional RewArds for Generative OptimizatioN,简称DRAGON),该框架能够灵活地将媒体生成模型调整至期望的结果。与传统的基于人类反馈的强化学习(RLHF)或成对偏好方法(如直接偏好优化DPO)相比,DRAGON更具灵活性。它可以优化评估单个示例或示例分布的奖励函数,使其适用于广泛的实例级、实例到分布、以及分布到分布的奖励。利用这种灵活性,我们通过选择一个编码器和一组参考示例来构建一个示例分布,进而构造新颖的奖励函数。当使用跨模态编码器如CLAP时,参考示例可以是不同模态的(例如文本与音频)。随后,DRAGON收集在线和策略上的生成结果,对其进行评分以构建正向演示集和负向集,并利用这两组之间的对比来最大化奖励。在评估过程中,我们使用20种不同的奖励函数对音频领域的文本到音乐扩散模型进行微调,其中包括定制的音乐美学模型、CLAP评分、Vendi多样性以及Frechet音频距离(FAD)。我们进一步比较了实例级(每首歌曲)和全数据集FAD设置,并在多个FAD编码器和参考集上进行了消融实验。在所有20个目标奖励中,DRAGON实现了81.45%的平均胜率。此外,基于示例集的奖励函数确实提升了生成质量,并且与基于模型的奖励相当。通过合适的示例集,在无需基于人类偏好标注进行训练的情况下,DRAGON实现了60.95%的人类投票音乐质量胜率。因此,DRAGON展示了一种新的设计和优化奖励函数的方法,以提升人类感知的质量。声音样本可在https://ml-dragon.github.io/web获取。