HyperAIHyperAI

Command Palette

Search for a command to run...

人間のフィードバックを用いた指示に従うように言語モデルを訓練する

概要

言語モデルをより大きくするだけでは、ユーザーの意図に従う能力が必然的に向上するわけではない。例えば、大規模言語モデルは事実と異なる出力を生成したり、有害な内容を生成したり、あるいはユーザーにとって役立たない出力を生み出すことがある。言い換えれば、こうしたモデルはユーザーの意図と整合していない。本論文では、人間のフィードバックを用いたファインチューニングによって、幅広いタスクにおいて言語モデルをユーザーの意図に整合させる道筋を示す。まず、ラベル作成者によって作成されたプロンプトと、OpenAI APIを通じて送信されたプロンプトをもとに、望ましいモデル行動のラベル作成者によるデモンストレーションデータセットを収集し、これを用いてGPT-3を教師あり学習によりファインチューニングする。次に、モデル出力の順位付けデータセットを収集し、このデータを用いて人間からの強化学習(Reinforcement Learning from Human Feedback, RLHF)により、前述の教師ありモデルをさらにファインチューニングする。こうして得られたモデルを「InstructGPT」と呼ぶ。我々が提示するプロンプト分布における人間評価において、175Bパラメータを持つGPT-3よりも、1.3BパラメータのInstructGPTモデルの出力が好まれている。さらに、InstructGPTモデルは事実性の向上と有害な出力の削減が見られつつも、公開されたNLPデータセットにおける性能低下は最小限に抑えられている。InstructGPTが依然として単純な誤りを犯すことはあるが、本研究の結果から、人間のフィードバックを用いたファインチューニングが、言語モデルを人間の意図に整合させるための有望なアプローチであることが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています