HyperAI초신경

ProcessBench 수학적 추론 벤치마크 데이터 세트

날짜

5달 전

크기

1.92 MB

기관

발행 주소

huggingface.co

ProcessBench는 수학적 추론의 오류를 식별하는 데 중점을 둔 벤치마크 데이터 세트입니다. 이 시험의 목적은 언어 모델이 수학적 추론에서 잘못된 단계를 식별하는 능력을 측정하는 것입니다. 이는 2024년 Alibaba Group의 Qwen 팀에 의해 출시되었습니다. 관련 논문 결과는 다음과 같습니다.ProcessBench: 수학적 추론의 프로세스 오류 식별".

이 데이터 세트에는 경쟁적인 수학 문제와 올림피아드 난이도에 초점을 맞춘 3.4k개의 테스트 예제가 포함되어 있습니다. 각 예제에는 도메인 전문가가 단계별 솔루션을 제시하고 정확한 오류 표시를 제공합니다. 이 데이터 세트를 구축할 때 연구팀은 여러 공개 데이터 소스에서 질문을 선택하고, 다양한 오픈 소스 언어 모델을 사용하여 답변을 생성했으며, 최종적으로 전문가로부터 데이터 검토를 받아 높은 수준의 품질을 보장했습니다.

PROCESSBENCH에 대한 예시 데이터입니다. 라벨 2는 가장 오래된 오류가 2단계에서 발생했음을 나타냅니다(0부터 시작하여 색인됨). 오류가 없는 테스트 케이스의 경우 레이블은 -1입니다.
ProcessBench.torrent
시딩 2다운로드 중 0완료됨 40총 다운로드 횟수 39
  • ProcessBench/
    • README.md
      1.58 KB
    • README.txt
      3.15 KB
      • data/
        • ProcessBench.zip
          1.92 MB