HyperAI超神经
17 days ago

VerifyBench:一个跨领域的推理验证系统基准测试

Xuzhao Li, Xuchen Li, Shiyu Hu, Yongzhen Guo, Wentao Zhang
VerifyBench:一个跨领域的推理验证系统基准测试
摘要

大型语言模型(LLMs)越来越依赖强化学习(RL)通过反馈来增强其推理能力。一个关键挑战是验证模型生成的响应与参考答案的一致性,因为这些响应通常较长、多样且复杂。基于规则的验证器在处理这种复杂性时显得力不从心,这促使了基于模型的验证器的应用。然而,专门化的验证器缺乏灵活性,而通用的大型语言模型作为判断者则可能表现出不一致性。现有的研究主要集中在构建更好的验证器上,但不同类型的验证器在各个领域的性能系统评估仍然不足,严重限制了可验证奖励强化学习(RLVR)的可靠发展。为了解决这一问题,我们提出了VerifyBench——一个跨领域的综合性基准测试平台,用于系统评估验证器。我们构建了涵盖数学、物理、化学和生物学的4,000个专家级问题。每个问题都配有参考答案和多种响应。通过多学科专家团队进行严格的注释过程,确保了评估的可靠性。我们设计了一个四维实验框架,以全面比较专门化验证器和通用大型语言模型在提取答案与完整响应、以及短输出与长输出相结合条件下的性能边界。我们的评估揭示了验证器的基本权衡:虽然专门化验证器在准确性方面领先,但在召回率方面存在缺陷;通用模型显示出更强的包容性,但精度不稳定。更重要的是,我们发现验证器对输入结构的高度敏感性和跨领域泛化的固有限制,为当前验证器技术的瓶颈提供了重要见解。