HyperAI초신경
17일 전

VerifyBench: 다양한 분야에서 추론 검증기의 체계적인 벤치마크

Xuzhao Li, Xuchen Li, Shiyu Hu, Yongzhen Guo, Wentao Zhang
VerifyBench: 다양한 분야에서 추론 검증기의 체계적인 벤치마크
초록

대형 언어 모델(LLM)은 피드백을 통해 추론 능력을 향상시키기 위해 점점 더 강화 학습(RL)에 의존하고 있습니다. 중요한 도전 과제는 이러한 응답이 종종 길고 다양하며 세부적인 경우가 많기 때문에 모델이 생성한 응답과 참조 답변 간의 일관성을 확인하는 것입니다. 규칙 기반 검증기는 복잡성에 대처하기 어려워 모델 기반 검증기가 사용되고 있습니다. 그러나 전문 검증기는 유연성이 부족하고, 일반 LLM 심판은 일관성이 떨어집니다. 기존 연구는 주로 더 나은 검증기를 구축하는 데 초점을 맞추고 있지만, 다양한 영역에서 서로 다른 유형의 검증기 성능을 체계적으로 평가하는 것이 부족하여, 검증 가능한 보상(Verifiable Reward, VR)을 이용한 강화 학습(RLVR)의 신뢰성 있는 개발이 크게 제약받고 있습니다. 이를 해결하기 위해 우리는 VerifyBench--다양한 영역에서 체계적으로 검증기를 평가하기 위한 포괄적인 벤치마크를 제안합니다. 우리는 수학, 물리학, 화학, 생물학을 포함하여 4,000개의 전문가 수준 질문을 구성했습니다. 각 질문에는 참조 답변과 다양한 응답이 포함되어 있습니다. 다학문적 전문가 팀이 수행한 엄격한 주석 과정을 통해 평가의 신뢰성이 보장됩니다. 우리는 추출된 답변 대비 완전한 응답과 짧은 출력 대비 긴 출력이라는 조건 하에서 전문 검증기와 일반 LLM의 성능 한계를 포괄적으로 비교하기 위한 4차원 실험 프레임워크를 설계했습니다. 우리의 평가는 검증기에 대한 근본적인 교환 관계를 밝혀냈습니다: 전문 검증기는 최고의 정확도를 달성하지만 재현율에서는 결함을 보이고, 일반 모델은 더 강한 포용성을 보이나 안정성이 떨어집니다. 더욱 중요하게는, 입력 구조에 대한 검증기의 높은 민감성과 영역 간 일반화의 고유한 제한성을 발견하여 현재 검증기 기술의 병목 현상에 대한 중요한 통찰력을 제공하였습니다.