xVerify：推理模型评估中的高效答案验证器

Ding Chen, Qingchen Yu, Pengyuan Wang, Wentao Zhang, Bo Tang, Feiyu Xiong, Xinchi Li, Minchuan Yang, Zhiyu Li

发布日期: 4/17/2025

摘要

随着OpenAI发布o1模型，采用慢思考策略的推理模型逐渐兴起。由于此类模型生成的响应往往包含复杂的推理、中间步骤和自我反思，现有的评估方法往往显得不足。它们难以判断大语言模型（LLM）的输出是否真正等同于参考答案，也难以从冗长复杂的响应中识别并提取最终答案。为解决这一问题，我们提出了xVerify，一种用于推理模型评估的高效答案验证器。xVerify在等价性判断方面展现出强大能力，能够有效判定推理模型在各种客观题型下生成的答案是否与参考答案等价。为训练和评估xVerify，我们构建了VAR数据集，通过收集多个LLM在不同数据集上生成的问答对，利用多个推理模型及专为推理模型评估设计的挑战性评估集，并采用多轮标注流程确保标签准确性。基于VAR数据集，我们训练了多个不同规模的xVerify模型。在测试集和泛化集上的评估实验中，所有xVerify模型的总体F1分数和准确率均超过95%。值得注意的是，最小规模的变体xVerify-0.5B-I在除GPT-4o外的所有评估方法中表现最佳，而xVerify-3B-Ib在整体性能上超越了GPT-4o。这些结果验证了xVerify的有效性和泛化能力。

查看论文详情