Command Palette

Search for a command to run...

1 个月前

多领域测试时扩展的奖励模型再思考

多领域测试时扩展的奖励模型再思考

摘要

在测试时扩展(test-time scaling)过程中,大型语言模型(LLMs)的可靠性通常通过外部验证器或奖励模型来评估,这些模型能够区分正确的推理过程与存在缺陷的逻辑。以往研究普遍认为,过程奖励模型(Process Reward Models, PRMs)——对每个中间推理步骤进行打分——优于仅评估最终答案的结果奖励模型(Outcome Reward Models, ORMs)。这一观点主要基于在狭窄、与数学相关的领域中所获得的证据。本文首次在14个多样化领域中对四种奖励模型变体进行了统一评估:判别式ORM与PRM(\DisORM、\DisPRM)以及生成式ORM与PRM(\GenORM、\GenPRM)。与传统认知相反,我们发现:(i)\DisORM的性能与\DisPRM相当;(ii)\GenPRM表现不佳,缺乏竞争力;(iii)总体而言,\GenORM最为稳健,在所有测试领域均实现了显著且一致的性能提升。我们将其归因于PRM式逐步评分机制——该机制继承了来自LLM自动标注的标签噪声,并难以有效评估包含自我修正推理在内的长推理路径。我们的理论分析表明,随着推理长度的增加,逐步聚合会放大误差;实证观察结果也证实了这一效应。这些发现挑战了“细粒度监督始终更优”的主流假设,支持在多领域部署中采用生成式结果验证方法。我们已将代码、数据集和模型检查点公开发布于 https://github.com/db-Lee/Multi-RM,以促进未来在多领域场景下的研究工作。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供