HyperAI

ProcessBench는 수학적 추론의 오류를 식별하는 데 중점을 둔 벤치마크 데이터 세트입니다. 이 시험의 목적은 언어 모델이 수학적 추론에서 잘못된 단계를 식별하는 능력을 측정하는 것입니다. 이는 2024년 Alibaba Group의 Qwen 팀에 의해 출시되었습니다. 관련 논문 결과는 다음과 같습니다.ProcessBench: 수학적 추론의 프로세스 오류 식별".

이 데이터 세트에는 경쟁적인 수학 문제와 올림피아드 난이도에 초점을 맞춘 3.4k개의 테스트 예제가 포함되어 있습니다. 각 예제에는 도메인 전문가가 단계별 솔루션을 제시하고 정확한 오류 표시를 제공합니다. 이 데이터 세트를 구축할 때 연구팀은 여러 공개 데이터 소스에서 질문을 선택하고, 다양한 오픈 소스 언어 모델을 사용하여 답변을 생성했으며, 최종적으로 전문가로부터 데이터 검토를 받아 높은 수준의 품질을 보장했습니다.