11日前
Math-Shepherd: 人間のアノテーションなしでLLMのステップバイステップによる検証と強化
Peiyi Wang, Lei Li, Zhihong Shao, R.X. Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, Zhifang Sui

要約
本稿では、数学問題の解法手順に対して段階ごとに報酬スコアを付与するプロセス指向型の数学用報酬モデルである \textbf{Math-Shepherd} を提案する。Math-Shepherd の学習は、自動的に構築された段階別教師データを用いて実現されており、従来の手法が手動アノテーションに強く依存するという課題を克服した。本モデルの有効性を以下の2つのシナリオにおいて検証した:1)\textit{検証}:Large Language Models(LLM)が生成した複数の出力を、Math-Shepherd を用いて再順序付け(reranking)する;2)\textit{強化学習}:Math-Shepherd を用いて、段階的プロキシポリシー最適化(Proximal Policy Optimization, PPO)に基づく強化学習により LLM を強化する。Math-Shepherd を導入することで、多数のオープンソース LLM が優れた性能を発揮した。例えば、Math-Shepherd を用いた段階的 PPO により、Mistral-7B は GSM8K で 77.9\% から 84.1\%、MATH では 28.6\% から 33.0\% へと精度が向上した。さらに、Math-Shepherd を用いた検証により、GSM8K では 89.1\%、MATH では 43.5\% まで精度を向上させることができた。本研究により、自動段階教師データの導入が LLM の将来的進化に大きな可能性を秘めていると考えられる。