直接偏好优化 Direct Preference Optimization
直接偏好优化(Direct Preference Optimization,简称 DPO)是一种用于对齐大语言模型 (LLMs) 与人类偏好的微调策略。它由斯坦福大学和 CZ Biohub 的研究团队于 2023 年提出,并在论文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》中首次被详细介绍,发表于 NeurIPS 2023 。
DPO 的核心思想是直接在人类偏好数据上进行优化,而无需训练一个单独的奖励模型或使用强化学习。它通过二元偏好数据对语言模型进行微调,使模型更倾向于生成人类偏好的回答。与传统的基于人类反馈的强化学习 (RLHF) 相比,DPO 更为简单、稳定且计算成本更低。它通过将偏好损失直接融入策略中,避免了奖励模型的拟合过程,同时利用 KL 散度约束确保训练中的模型不偏离原始模型。
DPO 的提出旨在解决 RLHF 的一些局限性,例如高计算成本、复杂奖励建模和训练过程中的不稳定性。实验表明,DPO 在控制生成情感方面优于基于 PPO 的 RLHF,并在摘要和单轮对话响应质量上与之匹敌或改进。此外,DPO 还通过引入偏移值 (offset) 来处理不同偏好强度的偏好对,进一步提升了模型的表现