直接プリファレンスの最適化 直接プリファレンスの最適化
Direct Preference Optimization (DPO) は、大規模言語モデル (LLM) を人間の好みに合わせるための微調整戦略です。これはスタンフォード大学とCZ Biohubの研究チームによって2023年に提案され、論文で発表されました。直接的な好みの最適化: 言語モデルは密かに報酬モデルです」が初めて詳細に紹介され、NeurIPS 2023 に掲載されました。
DPO の中心となるアイデアは、別の報酬モデルをトレーニングしたり、強化学習を使用したりせずに、人間の嗜好データに基づいて直接最適化することです。バイナリの好みのデータを使用して言語モデルを微調整し、モデルが人間の好みの応答を生成する可能性が高くなります。ヒューマン フィードバックに基づく従来の強化学習 (RLHF) と比較して、DPO はよりシンプルで安定しており、計算コストが低くなります。これは、KL 発散制約を使用してトレーニング中のモデルが元のモデルから逸脱しないようにしながら、優先損失をポリシーに直接統合することで報酬モデルのフィッティング プロセスを回避します。
DPO は、高い計算コスト、複雑な報酬モデリング、トレーニング中の不安定性など、RLHF のいくつかの制限に対処するために提案されました。実験の結果、DPO は生成された感情の制御において PPO ベースの RLHF よりも優れており、要約およびシングルターンの会話応答品質と同等または向上していることが示されています。さらに、DPO は、異なる好みの強さを持つ好みのペアを処理するためにオフセット値を導入することにより、モデルのパフォーマンスをさらに向上させます。