11日前
ステップバイステップで検証してみましょう
Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe

要約
近年、大規模言語モデルは複雑な多段階推論を実行する能力を著しく向上させている。しかし、最新のモデルですら依然として論理的な誤りを頻繁に生じている。より信頼性の高いモデルを訓練するためには、最終結果に対するフィードバックを提供する「結果監視(outcome supervision)」か、各中間推論ステップに対してフィードバックを提供する「プロセス監視(process supervision)」のいずれかに頼る必要がある。信頼性の高いモデルの訓練が重要である一方で、人間によるフィードバックのコストは高いため、これらの手法を慎重に比較することが不可欠である。近年の研究ではこの比較が開始されつつあるが、依然として多くの未解決の問いが残っている。本研究では独自の調査を実施し、困難なMATHデータセットの問題を解くためのモデル訓練において、プロセス監視が結果監視を著しく上回ることを明らかにした。当該プロセス監視に基づくモデルは、MATHテストセットの代表的なサブセットにおいて78%の問題を正しく解くことができた。さらに、アクティブラーニングがプロセス監視の効果を顕著に向上させることも示した。関連研究の支援を目的として、我々は最良の報酬モデルの訓練に使用した80万件の段階レベル人間フィードバックラベルを含む完全なデータセット「PRM800K」を公開する。