1ヶ月前
人間からのフィードバックを用いた強化学習による、有用かつ無害なアシスタントの訓練
Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, et al

要約
我々は、人間からのフィードバックを用いた強化学習(RLHF)および好みモデル化を用いて、有用かつ無害なアシスタントとして振る舞うよう言語モデルを微調整する。このアライメント学習により、ほぼすべての自然言語処理(NLP)評価において性能が向上することが明らかになった。また、この手法はPythonコード生成や要約といった特定のスキルの学習と完全に互換性がある。さらに、人間によるフィードバックデータを週次で更新し、好みモデルおよび強化学習ポリシーを反復的にオンラインで更新する訓練手法を検討した。このアプローチにより、データセットおよびモデルが効率的に改善されることを確認した。最終的に、RLHF訓練のロバスト性を調査し、ポリシーと初期化されたモデルとの間のKLダイバージェンスの平方根と、強化学習報酬との間に概ね線形関係があることを発見した。本研究の主要な結果に加え、補足的な分析として、キャリブレーション、競合する目的、OOD(Out-of-Distribution)検出の利用について検討した。また、人間の執筆者との比較を行い、最近の関連研究に登場するプロンプトを用いたモデルの出力サンプルを提示した。