18日前

OVM、数学的推論における計画のための出力監視型価値モデル

Fei Yu, Anningzhe Gao, Benyou Wang
OVM、数学的推論における計画のための出力監視型価値モデル
要約

大規模言語モデル(LLM)は、特に数学的推論において、複数ステップにわたる推論過程での正確性を維持することが困難である。初期のステップで生じた誤りが後続のステップに伝播し、最終的に誤った答えに至るリスクがある。誤りの伝播を低減するため、段階的な推論をガイドする「ガイド付きデコード」が用いられる。本研究では、ガイド付きデコードにおいて、各ステップごとの正しさを単に保証するのではなく、未完了の推論経路の潜在的価値を評価することの利点を主張する。このアプローチにより、最終的に正しい答えに至る可能性の高い経路を優先的に探索でき、推論の課題が「価値推定(value estimation)」という計画問題に再定式化される。これまでの研究で、ガイド付きデコードにおける「結果の監視(outcome supervision)」が本質的に「価値モデル(value model)」の役割を果たしていることが示されている。これを踏まえ、本研究では「結果監視による価値モデル(Outcome-supervised Value Model: OVM)」を提案する。OVMは、結果の監視に基づいて価値モデルを学習させ、正確な結論に至る経路を優先的に選択する。さらに、OVMは段階ごとの正しさに関する手動ラベル付け(step-level correctness annotations)の必要性を排除するため、スケーラビリティが著しく向上する。GSM8KおよびGame of 24という2つの多段階数学的推論データセットにおける実験により、OVMモデルの優れた性能が実証された。特にGSM8Kにおいて、OVM-7Bモデルは13BパラメータまでのLLMの中で最先端の結果を達成しており、GPT-4やコード実行の利用を一切行わない点が顕著である。これらの結果は、多段階推論タスクにおける価値モデル学習における結果監視の役割について、新たな視点を提供するとともに、ガイド付きデコードにおける価値推定の優位性について理論的根拠を示した。

OVM、数学的推論における計画のための出力監視型価値モデル | 最新論文 | HyperAI超神経