Command Palette
Search for a command to run...
Keertana Chidambaram Karthik Vinary Seetharaman Vasilis Syrgkanis

要約
人間からの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大規模言語モデルを人間の価値観と整合させるために中心的な役割を果たしており、通常はまず人間の好みデータから報酬モデルを学習し、その後その報酬モデルを用いて強化学習によりモデルを更新するというプロセスを経る。近年、Direct Preference Optimization(DPO)のような代替手法が登場し、好みデータに対して直接最適化を行うことでこのパイプラインを簡素化している。しかし、これらのアプローチは一般的に、アノテーターの好みが均一であることを仮定しており、二項比較に依存しているため、人間評価者の多様性とペアワイズフィードバックの限界という、二つの重要な問題を無視している。本研究では、これらの課題に取り組む。まず、RLHFにおける好み学習を計量経済学の文脈と結びつけ、有限のユーザーデータと無限のユーザーを想定した場合、二項比較だけでは潜在的なユーザー好みの同定が不十分であることを示す。一方で、3つ以上の応答に対する(完全または不完全な)順位付けは、同定可能性を保証することを明らかにする。次に、異質な好みを整合アルゴリズムに組み込む手法を提案する。我々は、DPOの期待値最大化(Expectation-Maximization)に基づく拡張を構築し、潜在的なアノテーターのタイプを同定し、それに応じて複数の大規模言語モデル(LLM)の混合モデルを学習する。さらに、最小最大レグレット公平性基準を用いた集約アルゴリズムを提案し、公平な性能保証を持つ単一の生成ポリシーを生成する。これらの貢献により、多様なユーザーに対して公平性とパーソナライズを実現する生成モデルの整合に関する理論的かつアルゴリズム的な枠組みが確立された。