Command Palette
Search for a command to run...
Keertana Chidambaram Karthik Vinary Seetharaman Vasilis Syrgkanis

摘要
基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)已成为对齐大型语言模型与人类价值观的核心方法,通常通过首先利用偏好数据训练一个奖励模型,再借助强化学习更新语言模型。近年来,诸如直接偏好优化(Direct Preference Optimization, DPO)等替代方法通过直接在偏好数据上进行优化,简化了这一流程。然而,这些方法通常假设标注者偏好具有一致性,并依赖于二元比较,忽略了两个关键局限:人类评估者的多样性以及成对反馈的固有局限性。本文针对上述两个问题提出解决方案。首先,我们将RLHF中的偏好学习与计量经济学文献相联系,证明仅依靠二元比较无法从有限的用户数据和无限用户群体中识别出潜在的用户偏好;而即便存在不完整的情况,对三个或更多响应结果的排序信息可确保偏好的可识别性。其次,我们提出将异质性偏好融入对齐算法的方法。我们开发了一种基于期望最大化(Expectation-Maximization)框架的DPO改进方法,能够识别出隐含的标注者类型,并据此训练一个语言模型的混合体。随后,我们提出一种基于最小最大后悔公平性准则的聚合算法,以生成一个具备公平性能保障的单一生成策略。上述贡献共同构建了一个理论与算法并重的框架,为生成式模型对齐中的公平性与个性化提供了面向多样化用户的坚实基础。