Command Palette
Search for a command to run...

摘要
基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)已成为对齐大型语言模型(Large Language Models, LLMs)与人类偏好标准范式。然而,基于Bradley-Terry假设的奖励方法难以捕捉现实世界中偏好所具有的非传递性与异质性特征。为应对这一挑战,近期研究将对齐问题重新建模为双人纳什博弈(two-player Nash game),由此催生了基于纳什学习的人类反馈方法(Nash Learning from Human Feedback, NLHF)。尽管这一视角启发了INPO、ONPO和EGPO等算法,并具备坚实的理论与实证保障,但它们本质上仍局限于双人交互场景,存在单一对手偏差(single-opponent bias),无法充分反映真实偏好结构的复杂性。本文提出一种新型框架——多玩家纳什偏好优化(Multiplayer Nash Preference Optimization, MNPO),将NLHF推广至多玩家博弈框架。该框架将对齐建模为n人博弈,其中每个策略在与一组对手群体竞争的同时,受到与参考模型保持一致的正则化约束。所提出的框架在多玩家设定下建立了明确的纳什均衡,并将对偶间隙(duality gap)的概念拓展至多玩家场景,用于量化近似质量。实验表明,MNPO在继承双人方法均衡性保障的基础上,实现了更丰富的竞争动态,并显著提升了对多样化偏好结构的覆盖能力。通过全面的实证评估,我们验证了MNPO在指令遵循基准测试中持续优于现有NLHF基线方法,在异质标注者条件与混合策略评估场景下均实现了更优的对齐性能。综上,MNPO为对齐大型语言模型与复杂、非传递的人类偏好提供了一个原则性强且可扩展的框架。代码已开源,地址为:https://github.com/smiles724/MNPO。