Command Palette
Search for a command to run...

要約
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)を人間の好みに整合させる標準的な枠組みとして登場した。しかし、Bradley-Terry仮定に基づく報酬手法は、現実の好みが持つ非推移性および多様性を捉えきれていない。この課題に対処するため、最近の研究では整合性の問題を2人対戦のナッシュ均衡ゲームとして再定式化し、人間のフィードバックからのナッシュ学習(NLHF)というアプローチが提唱された。この視点は、理論的・実証的に優れた保証を持つアルゴリズム、例えばINPO、ONPO、EGPOを生み出したが、それらは本質的に2人対戦に限定されており、単一の相手に対するバイアスを抱えており、現実的な好み構造の複雑さを十分に捉えきれていない。本研究では、NLHFを複数人対戦の枠組みに拡張する新しいフレームワークである「マルチプレイヤー・ナッシュ・プレファレンス最適化(MNPO)」を提案する。MNPOは、各方策が対戦相手の集団と競争しながら、同時に参照モデルへ正則化されるn人対戦ゲームとして整合性を定式化する。本フレームワークは、複数人環境における明確なナッシュ均衡を確立し、近似の品質を測定するための双対ギャップの概念を拡張する。実証的に、MNPOは2人対戦手法が持つ均衡保証を継承しつつ、より豊かな競争ダイナミクスを実現し、多様な好み構造のカバー範囲を向上させることを示した。包括的な実験評価を通じて、MNPOが指示従従ベンチマークにおいて既存のNLHFベースラインを一貫して上回り、異種のアノテーター条件や混合方策評価環境下でも優れた整合性品質を達成することを明らかにした。これらの結果から、MNPOは複雑で非推移的な人間の好みに大規模言語モデルを整合させる原理的かつスケーラブルなフレームワークであることが示された。コードは以下のURLで公開されている:https://github.com/smiles724/MNPO。