HyperAI
Command Palette
Search for a command to run...
MMLU-Pro 대규모 멀티태스크 이해 데이터 세트
MMLU-Pro 데이터 세트는 대규모 언어 모델의 성능을 보다 엄격하게 벤치마킹하기 위해 설계된, 더욱 강력하고 까다로운 대규모 멀티태스크 이해 데이터 세트입니다. 이 데이터 세트에는 여러 학문 분야에 걸쳐 12,000개의 복잡한 질문이 포함되어 있습니다. 이 데이터 세트는 워털루 대학교, 토론토 대학교, 카네기 멜론 대학교의 연구자들에 의해 2024년에 공개되었습니다. 관련 논문의 제목은 “MMLU-Pro: 더욱 강력하고 도전적인 멀티태스킹 언어 이해 벤치마크".
- 질문 및 선택지: 데이터 세트의 각 질문에는 일반적으로 10개의 객관식 선택지가 있지만, 수동 검토 과정에서 비합리적인 선택지를 제거하기 위해 일부 선택지를 줄였습니다. 원래 각 질문에는 4개의 선택지가 있었으며, 선택지 추가는 문제의 복잡성과 견고성을 향상시켜 정답을 찾기 위해 더 심층적인 추론을 요구하도록 하기 위한 것입니다.
- 출처: 이 데이터 세트는 여러 출처의 질문을 통합한 것입니다.
- 원본 MMLU 문제: 데이터셋의 일부는 원본 MMLU 데이터셋에서 가져왔습니다. 사소하거나 모호한 문제는 제거했습니다.
- STEM 웹사이트: 인터넷에서 엄선한 수준 높은 STEM 문제들을 모았습니다.
- TheoremQA: 정리 해법이 필요한 고품질 수동 주석 문제 모음.
- SciBench: 대학 시험용 과학 문제 모음.
- 새롭게 추가된 데이터는 생물학, 경영학, 화학, 컴퓨터 과학, 경제학, 공학, 수학, 물리학, 심리학을 포함한 STEM 웹사이트, TheoremQA 및 SciBench의 질문들을 통해 보강되었습니다. 원래의 MMLU와 비교했을 때, 세 가지 주요 차이점은 다음과 같습니다.
- 원래 MMLU 데이터 세트에는 옵션이 4개만 포함되어 있었지만, MMLU-Pro에서는 옵션이 10개로 늘어났습니다. 옵션이 늘어나면 평가가 더 현실적이고 어려워질 것입니다. 무작위로 추측하면 점수가 훨씬 낮아질 것입니다.
- 원래 MMLU 데이터 세트는 추론이 많이 필요하지 않은 지식 기반 질문을 주로 포함합니다. 따라서 PPL 결과는 일반적으로 CoT보다 더 좋습니다. MMLU-Pro에서 질문의 난이도를 높이고 추론 중심 질문을 더 많이 통합함으로써 CoT는 PPL보다 20% 더 높아질 수 있습니다.
- MMLU-Pro는 방해 요소의 수를 늘림으로써 우연히 정답을 추측할 확률을 크게 줄여 벤치마크의 견고성을 향상시킵니다. 구체적으로, 24가지의 다양한 프롬프트 스타일을 테스트한 후, 프롬프트 변화에 대한 모델 점수의 민감도는 MMLU의 4-5%에서 MMLU-Pro의 2%로 감소했습니다.
MMLU-Pro.torrent
시딩 2다운로드 중 0완료됨 290총 다운로드 수 611
이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.