Command Palette
Search for a command to run...
Jiaru Zou Soumya Roy Vinay Kumar Verma Ziyi Wang David Wipf Pan Lu Sumit Negi James Zou Jingrui He

摘要
过程奖励模型(Process Reward Models, PRMs)近期作为一种强大的框架被提出,用于提升大型推理模型(Large Reasoning Models, LRMs)的推理能力,尤其是在测试时扩展(Test-time Scaling, TTS)的背景下。然而,PRMs在表格推理领域对LRMs进行监督的潜力仍鲜有探索。通过详尽的实证分析,我们发现,尽管现有PRMs在监督纯文本推理步骤方面已被广泛采用,但在处理表格特有的操作(如子表检索和模式交互)时表现不佳,从而导致关键的性能瓶颈。为解决这一局限性,我们提出了TaTToo——一种新型的基于表格的PRM框架,该框架具备两个核心特性:(i)显式地对表格推理步骤进行推理;(ii)引入基于工具的验证机制,以提供精确的奖励监督。具体而言,我们首先设计了一条可扩展的数据构建流水线,通过融合表格验证推理与基于工具的执行,构建了超过6万条高质量的细粒度步骤级标注数据。基于所收集的数据,我们采用双阶段训练范式训练TaTToo:首先进行冷启动式的监督微调,以捕捉工具使用相关的推理模式;随后通过基于工具的奖励塑造进行强化学习,使模型与基于表格的验证目标对齐。我们对新设计的PRM所引发的策略性能提升进行了全面评估。在涵盖数值推理、事实核查与数据分析等五项具有挑战性的表格推理基准测试中,TaTToo在推理阶段使下游策略型LRM的性能平均提升30.9%,在仅使用80亿参数的情况下,超越了如Qwen-2.5-Math-PRM-72B等强大的PRM基线模型,并在多种不同的TTS策略下展现出优异的泛化能力。