18 天前

CompassVerifier:一种统一且鲁棒的LLM评估与结果奖励验证器

Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen
CompassVerifier:一种统一且鲁棒的LLM评估与结果奖励验证器
摘要

答案验证在评估大语言模型(LLMs)方面至关重要,不仅用于将模型生成的非结构化输出与标准答案进行匹配,还可作为奖励模型,指导LLM的优化。目前大多数评估框架依赖正则表达式匹配或使用通用大语言模型进行答案验证,这往往需要大量重复且繁琐的定制工作,包括规则编写或评估提示的调整。当前方法仍存在两个根本性局限:其一,缺乏系统性地评估不同LLM在答案验证能力上的全面基准;其二,验证器(verifier)开发尚处于初级阶段,现有方法既难以应对复杂的边界情况,也缺乏在不同领域间的泛化能力。在本工作中,我们提出了CompassVerifier——一个准确、鲁棒且轻量级的验证器模型,专为评估与结果奖励设计。该模型展现出跨数学、知识问答及多样化推理任务的多领域能力,能够处理包括多子问题、公式表达和序列型答案在内的多种答案形式,并有效识别异常或无效输出。我们构建了VerifierBench基准数据集,该数据集整合了来自多个数据源的模型输出,并通过人工分析元错误(metaerror)模式对数据进行增强,以提升CompassVerifier的性能。我们预计,CompassVerifier与VerifierBench将推动答案验证技术、评估协议设计以及强化学习研究的发展。代码与数据集已开源,地址为:https://github.com/open-compass/CompassVerifier。

CompassVerifier:一种统一且鲁棒的LLM评估与结果奖励验证器 | 最新论文 | HyperAI超神经