Command Palette

Search for a command to run...

ProcessBench 수학적 추론 벤치마크 데이터 세트

날짜

일 년 전

크기

1.92 MB

기관

논문 URL

arxiv.org

ProcessBench는 수학적 추론의 오류를 식별하는 데 중점을 둔 벤치마크 데이터 세트입니다. 이 시험의 목적은 언어 모델이 수학적 추론에서 잘못된 단계를 식별하는 능력을 측정하는 것입니다. 이는 2024년 Alibaba Group의 Qwen 팀에 의해 출시되었습니다. 관련 논문 결과는 다음과 같습니다.ProcessBench: 수학적 추론의 프로세스 오류 식별".

이 데이터 세트에는 경쟁적인 수학 문제와 올림피아드 난이도에 초점을 맞춘 3.4k개의 테스트 예제가 포함되어 있습니다. 각 예제에는 도메인 전문가가 단계별 솔루션을 제시하고 정확한 오류 표시를 제공합니다. 이 데이터 세트를 구축할 때 연구팀은 여러 공개 데이터 소스에서 질문을 선택하고, 다양한 오픈 소스 언어 모델을 사용하여 답변을 생성했으며, 최종적으로 전문가로부터 데이터 검토를 받아 높은 수준의 품질을 보장했습니다.

PROCESSBENCH에 대한 예시 데이터입니다. 라벨 2는 가장 오래된 오류가 2단계에서 발생했음을 나타냅니다(0부터 시작하여 색인됨). 오류가 없는 테스트 케이스의 경우 레이블은 -1입니다.
ProcessBench.torrent
시딩 1다운로드 중 0완료됨 94총 다운로드 횟수 144
  • ProcessBench/
    • README.md
      1.58 KB
    • README.txt
      3.15 KB
      • data/
        • ProcessBench.zip
          1.92 MB

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
ProcessBench 수학적 추론 벤치마크 데이터 세트 | 데이터셋 | HyperAI초신경