3ヶ月前

AlphaMath Almost Zero: プロセス監視によるプロセスなし

Guoxin Chen, Minpeng Liao, Chengxi Li, Kai Fan
AlphaMath Almost Zero: プロセス監視によるプロセスなし
要約

近年の大規模言語モデル(LLM)の進展により、さまざまなタスクにおける性能は顕著に向上しているが、特に数学的推論を含む複雑で記号的な多段階推論においては依然として課題が残っている。LLMの数学的推論能力を強化するため、従来の多くは高品質なプロセス監視データ(プロセスラベル)を得るためにドメインエキスパートやGPT-4の支援に依存している。しかし、こうしたアプローチは費用が高く、人的労力も多大であるという問題がある。本研究では、人間やGPTによるプロセスラベルの必要性を回避するため、モンテカルロ木探索(MCTS)を活用する画期的なフレームワーク「AlphaMath」を提案する。このフレームワークは、十分に事前学習されたLLMの潜在能力を最大限に引き出し、自己学習による数学的推論能力の向上を実現することを目的としている。具体的には、LLMに価値モデル(value model)を統合し、MCTSにおいて自動的にプロセス監視信号と段階レベルの評価信号を生成する。さらに、効率的な推論戦略として「段階別ビームサーチ(step-level beam search)」を提案。この戦略では、価値モデルが事前確率に依存するのではなく、ポリシーモデル(すなわちLLM)がより効果的な推論経路を探索するのを支援するよう設計されている。ドメイン内およびドメイン外のデータセットに対する実験結果から、GPT-4や人間によるプロセスラベルを一切使用せずに、AlphaMathフレームワークは従来の最先端手法と同等あるいはそれを上回る性能を達成することが示された。