5日前

事前学習されたポリシーディスクリミネーターは一般的な報酬モデルである

Shihan Dou, Shichun Liu, Yuming Yang, Yicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, Demin Song, Haijun Lv, Songyang Gao, Chengqi Lv, Enyu Zhou, Honglin Guo, Zhiheng Xi, Wenwei Zhang, Qipeng Guo, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Tao Gui, Kai Chen

論文の詳細を見る View Code

要約

報酬モデリングに関する新しい視点を提供し、これをポリシー識別器として定式化します。この識別器は、2つのポリシー間の違いを数値化し、報酬信号を生成することで、学習ポリシーを目的の行動を持つ目標ポリシーへと導きます。この概念的な洞察に基づいて、我々はスケーラブルな事前学習手法であるPolicy Discriminative Learning（POLAR）を提案します。POLARは、報酬モデル（RM）が同一のポリシーを識別し、異なるポリシーを区別できるように訓練します。従来の絶対的な選好に依存する報酬モデリング手法とは異なり、POLARは1つのポリシーと任意の目標ポリシーとの相対的な違いを捉えます。これは一般的なランキング関係をモデル化するのに適したスケーラブルで高レベルの最適化目標です。POLARの事前学習パラダイムを利用して、我々は1.8Bから7Bまでのパラメータ規模を持つ一連のRMを提示します。実験結果は、POLARが従来の非事前学習手法よりも大幅に優れていることを示しており、RMの性能が著しく向上しています。例えば、STEMタスクではSOTAベースラインに対して54.8%から81.0%へと改善され、クリエイティブライティングタスクでは57.9%から85.5%へと改善されました。さらに、強化学習におけるReinforcement Fine-tuning（RFT）を使用してRLHFを行う際も、POLARは堅牢な汎化能力を示し、信頼性のある報酬信号を提供し、ポリシー性能が顕著に向上しました。具体的には20個のベンチマークにおいてLLaMa3.1-8Bの平均性能が47.36%から56.33%へと向上し、Qwen2.5-32Bは64.49%から70.47%へと向上しました。また、スケーリング実験では計算量と性能との間に明確なべき乗則関係があることが明らかになり、線形相関係数が0.99に近づくことを確認しました。これらの印象的な性能、強固な汎化能力およびスケーリング特性は、POLARが一般的かつ強力な報酬モデルを開発する有望な方向性であることを示唆しています。