Command Palette
Search for a command to run...

要約
テスト時スケーリングにおける大規模言語モデル(LLM)の信頼性は、通常、正しい推論と誤った論理を区別できる外部検証者や報酬モデルによって評価される。従来の研究では、各中間推論ステップにスコアを付与するプロセス報酬モデル(PRM)が、最終回答のみを評価するアウトカム報酬モデル(ORM)よりも優れていると仮定している。この見解は、主に数学に近い狭域の分野における証拠に基づいている。本研究では、14の多様な分野にわたり、判別型ORMおよびPRM(\DisORM、\DisPRM)と生成型ORMおよびPRM(\GenORM、\GenPRM)の4種類の報酬モデル変種を統一的に評価する。従来の常識とは対照的に、我々は以下の結果を得た:(i)\DisORMは\DisPRMと同等の性能を示し、(ii)\GenPRMは競争力がない、(iii)全体として、\GenORMが最も堅牢であり、すべてのテスト領域で顕著かつ一貫した性能向上をもたらした。この理由として、PRM風の段階的スコアリングがLLMによる自動ラベル付けから生じるラベルノイズを引き継ぎ、自己修正を含む長大な推論経路の評価に困難を抱えることにあると考察する。理論的分析から、段階的集約は推論の長さが増すにつれて誤差を累積させることを示しており、実証的な観察もこの影響を確認している。これらの結果は、細分化された監視が常に優れているという既存の仮定に疑問を呈し、多領域展開における生成型アウトカム検証の有効性を支持するものである。本研究では、コード、データセット、およびチェックポイントを https://github.com/db-Lee/Multi-RM にて公開し、多領域設定における今後の研究を促進することを目的としている。