人間のフィードバックを用いた指示に従うように言語モデルを訓練する

言語モデルをより大きくするだけでは、ユーザーの意図に従う能力が必然的に向上するわけではない。例えば、大規模言語モデルは事実と異なる出力を生成したり、有害な内容を生成したり、あるいはユーザーにとって役立たない出力を生み出すことがある。言い換えれば、こうしたモデルはユーザーの意図と整合していない。本論文では、人間のフィードバックを用いたファインチューニングによって、幅広いタスクにおいて言語モデルをユーザーの意図に整合させる道筋を示す。まず、ラベル作成者によって作成されたプロンプトと、OpenAI APIを通じて送信されたプロンプトをもとに、望ましいモデル行動のラベル作成者によるデモンストレーションデータセットを収集し、これを用いてGPT-3を教師あり学習によりファインチューニングする。次に、モデル出力の順位付けデータセットを収集し、このデータを用いて人間からの強化学習(Reinforcement Learning from Human Feedback, RLHF)により、前述の教師ありモデルをさらにファインチューニングする。こうして得られたモデルを「InstructGPT」と呼ぶ。我々が提示するプロンプト分布における人間評価において、175Bパラメータを持つGPT-3よりも、1.3BパラメータのInstructGPTモデルの出力が好まれている。さらに、InstructGPTモデルは事実性の向上と有害な出力の削減が見られつつも、公開されたNLPデータセットにおける性能低下は最小限に抑えられている。InstructGPTが依然として単純な誤りを犯すことはあるが、本研究の結果から、人間のフィードバックを用いたファインチューニングが、言語モデルを人間の意図に整合させるための有望なアプローチであることが示された。