Command Palette

Search for a command to run...

1ヶ月前

TaTToo:テーブル推論におけるテスト時スケーリングのためのツール接地型思考PRM

Jiaru Zou Soumya Roy Vinay Kumar Verma Ziyi Wang David Wipf Pan Lu Sumit Negi James Zou Jingrui He

TaTToo:テーブル推論におけるテスト時スケーリングのためのツール接地型思考PRM

要約

プロセス報酬モデル(Process Reward Models: PRMs)は、最近、大規模推論モデル(Large Reasoning Models: LRMs)の推論能力を強化するための有効な枠組みとして注目されており、特に推論時スケーリング(Test-time Scaling: TTS)の文脈において顕著な成果を上げている。しかし、表形式の推論領域におけるLRMの監視という観点から見た場合、PRMsの潜在的な活用可能性はまだ十分に探求されていない。詳細な実証分析を通じて、従来のPRMsがテキスト中心の推論ステップの監視には広く採用されているものの、サブテーブルの検索やスキーマとの相互作用といった表特有の操作に対しては困難を示し、重要な性能のボトルネックを引き起こしていることが明らかになった。この課題に対処するため、本研究では、表に根ざした新たなPRMフレームワーク「TaTToo」を提案する。TaTTooは、(i) 表形式の推論ステップに対して明示的な推論を行うこと、および (ii) ツールを活用した検証機能を統合し、高精度な報酬監視を提供することを特徴とする。具体的には、まず、ツールを用いた実行結果と表の検証根拠を統合することで、6万件を超える高品質なステップレベルのアノテーションを構築するスケーラブルなデータキュレーションパイプラインを設計した。得られたデータに基づき、二段階の訓練アプローチを採用してTaTTooを学習する:第一段階として、ツール利用の推論パターンを捉えるための「コールドスタート型の教師ありファインチューニング」を行い、第二段階では、表に基づく検証に整合するように、ツールに根ざした報酬設計を用いた強化学習を実施する。本研究では、新たに設計されたPRMがもたらす方策改善の効果を包括的に評価した。数値推論、事実検証、データ分析をカバーする5つの困難な表形式推論ベンチマークにおいて、TaTTooは推論時に下流の政策モデル(policy LRM)の性能を平均30.9%向上させ、パラメータ数80億のモデルでありながら、Qwen-2.5-Math-PRM-72Bのような強力なPRMベースラインを上回り、さまざまなTTS戦略においても高い汎化性能を示した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
TaTToo:テーブル推論におけるテスト時スケーリングのためのツール接地型思考PRM | 論文 | HyperAI超神経