HyperAI초신경

MMLU-Pro 대규모 멀티태스크 이해 데이터 세트

날짜

8달 전

크기

3.48 MB

발행 주소

github.com

* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.

MMLU-Pro 데이터 세트는 대규모 언어 모델의 성능을 보다 엄격하게 벤치마킹하기 위해 설계된, 더욱 강력하고 까다로운 대규모 멀티태스크 이해 데이터 세트입니다. 이 데이터 세트에는 여러 학문 분야에 걸쳐 12,000개의 복잡한 질문이 포함되어 있습니다. 이 데이터 세트는 워털루 대학교, 토론토 대학교, 카네기 멜론 대학교의 연구자들에 의해 2024년에 공개되었습니다. 관련 논문의 제목은 “MMLU-Pro: 더욱 강력하고 도전적인 멀티태스킹 언어 이해 벤치마크".

  • 질문과 옵션:데이터 세트의 각 질문에는 일반적으로 객관식 옵션이 10개 있지만, 수동 검토 과정에서 일부 옵션을 줄여서 부당한 옵션을 제거했습니다. 각 질문에는 원래 4개의 선택지가 있었으며, 추가된 선택지는 복잡성과 견고성을 높이기 위한 것으로, 수많은 잠재적 방해 요소 중에서 정답을 찾으려면 더 깊은 추론이 필요합니다.
  • 원천:이 데이터 세트는 여러 소스의 질문을 결합합니다.
    • 원래 MMLU 질문:데이터 세트의 일부는 원래 MMLU 데이터 세트에서 나왔습니다. 우리는 사소하고 모호한 질문을 제거했습니다.
    • STEM 웹사이트:인터넷에서 고품질의 STEM 질문을 신중하게 선택하세요.
    • 정리QA:정리를 통해 해결해야 하는 고품질의 인간 주석 문제입니다.
    • 사이벤치:대학 시험에 출제되는 과학 문제.
  • 새로 추가된 데이터는 다음 주제를 다룹니다.STEM 웹사이트, TheoremQA, SciBench의 문제로 강화된 과목에는 생물학, 경영학, 화학, 컴퓨터 과학, 경제학, 공학, 수학, 물리학, 심리학이 포함됩니다.

원래의 MMLU와 비교했을 때, 세 가지 주요 차이점은 다음과 같습니다.

  • 원래 MMLU 데이터 세트에는 옵션이 4개만 포함되어 있었지만, MMLU-Pro에서는 옵션이 10개로 늘어났습니다. 옵션이 늘어나면 평가가 더 현실적이고 어려워질 것입니다. 무작위로 추측하면 점수가 훨씬 낮아질 것입니다.
  • 원래 MMLU 데이터 세트는 추론이 많이 필요하지 않은 지식 기반 질문을 주로 포함합니다. 따라서 PPL 결과는 일반적으로 CoT보다 더 좋습니다. MMLU-Pro에서 질문의 난이도를 높이고 추론 중심 질문을 더 많이 통합함으로써 CoT는 PPL보다 20% 더 높아질 수 있습니다.
  • MMLU-Pro는 방해 요소의 수를 늘림으로써 우연히 정답을 추측할 확률을 크게 줄여 벤치마크의 견고성을 향상시킵니다. 구체적으로, 24가지의 다양한 프롬프트 스타일을 테스트한 후, 프롬프트 변화에 대한 모델 점수의 민감도는 MMLU의 4-5%에서 MMLU-Pro의 2%로 감소했습니다.
MMLU-Pro.torrent
시딩 1다운로드 중 1완료됨 99총 다운로드 횟수 311
  • MMLU-Pro/
    • README.md
      2.88 KB
    • README.txt
      5.75 KB
      • data/
        • MMLU-Pro.zip
          3.48 MB