UNA 对齐框架

UNA 全称为 Unified Alignment Framework,是由来自 Salesforce 和厦门大学的研究团队提出的一个新型对齐框架。相关论文成果为「UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function」。

UNA 的核心思想是通过一个广义的隐式奖励函数来统一不同的对齐技术,包括 RLHF/PPO 、 DPO 和 KTO 。这种方法的创新之处在于,它将这些对齐技术融合为一个监督学习问题,即最小化隐式奖励和显式奖励之间的差异。

UNA 的提出是为了解决现有对齐技术的一些局限性。例如,RLHF 需要分别训练奖励模型和策略,这个过程复杂、耗时、内存密集且在训练过程中不稳定。而 DPO 虽然提出了一个最优策略和奖励之间的映射关系,简化了 RLHF 的训练过程,但它不能充分利用奖励模型,且仅限于成对偏好数据。 UNA 通过数学证明,给定经典的 RLHF 目标,最优策略可以通过一个广义的隐式奖励函数来诱导。这个新的映射关系使得 UNA 能够简化 RLHF/PPO,同时稳定、加速并减少 RL 微调过程的内存负担,并且能够适应不同类型的反馈,包括成对、二元和标量反馈。