17日前

人間のフィードバックを用いた指示に従うように言語モデルを訓練する

Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe

論文の詳細を見る

要約

言語モデルをより大きくするだけでは、ユーザーの意図に従う能力が必然的に向上するわけではない。例えば、大規模言語モデルは事実と異なる出力を生成したり、有害な内容を生成したり、あるいはユーザーにとって役立たない出力を生み出すことがある。言い換えれば、こうしたモデルはユーザーの意図と整合していない。本論文では、人間のフィードバックを用いたファインチューニングによって、幅広いタスクにおいて言語モデルをユーザーの意図に整合させる道筋を示す。まず、ラベル作成者によって作成されたプロンプトと、OpenAI APIを通じて送信されたプロンプトをもとに、望ましいモデル行動のラベル作成者によるデモンストレーションデータセットを収集し、これを用いてGPT-3を教師あり学習によりファインチューニングする。次に、モデル出力の順位付けデータセットを収集し、このデータを用いて人間からの強化学習（Reinforcement Learning from Human Feedback, RLHF）により、前述の教師ありモデルをさらにファインチューニングする。こうして得られたモデルを「InstructGPT」と呼ぶ。我々が提示するプロンプト分布における人間評価において、175Bパラメータを持つGPT-3よりも、1.3BパラメータのInstructGPTモデルの出力が好まれている。さらに、InstructGPTモデルは事実性の向上と有害な出力の削減が見られつつも、公開されたNLPデータセットにおける性能低下は最小限に抑えられている。InstructGPTが依然として単純な誤りを犯すことはあるが、本研究の結果から、人間のフィードバックを用いたファインチューニングが、言語モデルを人間の意図に整合させるための有望なアプローチであることが示された。