
数学的推論は、正確性を確保するためには広範かつ精密な推論連鎖が必要となるため、大規模言語モデル(LLM)にとって大きな課題である。各推論ステップの正しさを保証することは極めて重要である。この問題に対処するため、本研究では人間のフィードバックから学習することで、LLMの堅牢性および事実性を向上させることを目指す。しかし、直接的偏好最適化(Direct Preference Optimization; DPO)は、長大な推論チェーンにおける数学的推論に対して限定的な効果しか示さない。DPOを用いるモデルは、誤った解答における詳細な誤りを正確に識別する能力に欠ける。この制限は、細粒度のプロセス監視が不足していることに起因する。そこで、本研究では、回答全体を評価するのではなく、個々の推論ステップを単位として偏好最適化を行うシンプルかつ効果的でデータ効率の高い手法である「Step-DPO」を提案する。さらに、Step-DPO用のデータ構築パイプラインを構築し、10,000件のステップ単位の偏好ペアを含む高品質なデータセットの作成を可能とした。また、DPOにおいて、自己生成データが人間やGPT-4によって生成されたデータよりも効果的であることを観察した。これは、後者のデータが分布外(out-of-distribution)であるためである。本研究の結果から、わずか10,000件の偏好データペアと500ステップ未満のStep-DPO学習で、700億パラメータ以上のモデルにおいてMATHベンチマークでほぼ3%の精度向上が達成可能であることが示された。特に、Qwen2-72B-InstructにStep-DPOを適用した場合、MATHとGSM8Kのテストセットでそれぞれ70.8%および94.0%のスコアを達成し、GPT-4-1106、Claude-3-Opus、Gemini-1.5-Proを含む多数の閉鎖型モデルを上回った。本研究のコード、データ、モデルは、https://github.com/dvlab-research/Step-DPO にて公開されている。