HyperAI超神经
2 days ago

MaPPO:基于先验知识的最大后验偏好优化

Guangchen Lan, Sipeng Zhang, Tianle Wang, Yuwei Zhang, Daoan Zhang, Xinpeng Wei, Xiaoman Pan, Hongming Zhang, Dong-Jun Han, Christopher G. Brinton
摘要

随着大型语言模型(LLMs)代用户执行任务的时代逐步展开,偏好优化(Preference Optimization, PO)方法已成为对齐LLMs与人类偏好、提升模型性能的核心途径。本文提出最大后验偏好优化(Maximum a Posteriori Preference Optimization, MaPPO),一种基于偏好的学习框架,其在优化目标中显式地融入了先验奖励知识。与现有方法(如直接偏好优化,Direct Preference Optimization, DPO)及其变体将偏好学习视为最大似然估计(Maximum Likelihood Estimation, MLE)问题不同,MaPPO通过将先验奖励估计整合进一个严谨的最大后验(Maximum a Posteriori, MaP)目标,拓展了该范式。这一改进不仅统一了DPO及其变体,还通过缓解对响应结果的过度简化二分类问题,显著提升了对齐效果。更重要的是,MaPPO无需引入额外超参数,且支持离线与在线两种场景下的偏好优化。此外,MaPPO可作为插件模块,与多种DPO变体(包括广泛应用的SimPO、IPO和CPO)结合使用,并带来一致的性能提升。在三个标准基准测试(包括MT-Bench、AlpacaEval 2.0和Arena-Hard)上,针对不同模型规模与模型系列的广泛实证评估表明,MaPPO在不牺牲计算效率的前提下,持续提升了对齐性能。