@article{wang2024mmlu, title={Mmlu-pro: A more robust and challenging multi-task language understanding benchmark}, author={Wang, Yubo and Ma, Xueguang and Zhang, Ge and Ni, Yuansheng and Chandra, Abhranil and Guo, Shiguang and Ren, Weiming and Arulraj, Aaran and He, Xuan and Jiang, Ziyan and others}, journal={arXiv preprint arXiv:2406.01574}, year={2024} }

날짜

2년 전

크기

3.48 MB

게시 URL

Paper URL

태그

MMLU-Pro 데이터 세트는 대규모 언어 모델의 성능을 보다 엄격하게 벤치마킹하기 위해 설계된, 더욱 강력하고 까다로운 대규모 멀티태스크 이해 데이터 세트입니다. 이 데이터 세트에는 여러 학문 분야에 걸쳐 12,000개의 복잡한 질문이 포함되어 있습니다. 이 데이터 세트는 워털루 대학교, 토론토 대학교, 카네기 멜론 대학교의 연구자들에 의해 2024년에 공개되었습니다. 관련 논문의 제목은 “MMLU-Pro: 더욱 강력하고 도전적인 멀티태스킹 언어 이해 벤치마크".

질문 및 선택지: 데이터 세트의 각 질문에는 일반적으로 10개의 객관식 선택지가 있지만, 수동 검토 과정에서 비합리적인 선택지를 제거하기 위해 일부 선택지를 줄였습니다. 원래 각 질문에는 4개의 선택지가 있었으며, 선택지 추가는 문제의 복잡성과 견고성을 향상시켜 정답을 찾기 위해 더 심층적인 추론을 요구하도록 하기 위한 것입니다.
출처: 이 데이터 세트는 여러 출처의 질문을 통합한 것입니다.

원본 MMLU 문제: 데이터셋의 일부는 원본 MMLU 데이터셋에서 가져왔습니다. 사소하거나 모호한 문제는 제거했습니다.
STEM 웹사이트: 인터넷에서 엄선한 수준 높은 STEM 문제들을 모았습니다.
TheoremQA: 정리 해법이 필요한 고품질 수동 주석 문제 모음.
SciBench: 대학 시험용 과학 문제 모음.

새롭게 추가된 데이터는 생물학, 경영학, 화학, 컴퓨터 과학, 경제학, 공학, 수학, 물리학, 심리학을 포함한 STEM 웹사이트, TheoremQA 및 SciBench의 질문들을 통해 보강되었습니다. 원래의 MMLU와 비교했을 때, 세 가지 주요 차이점은 다음과 같습니다.
원래 MMLU 데이터 세트에는 옵션이 4개만 포함되어 있었지만, MMLU-Pro에서는 옵션이 10개로 늘어났습니다. 옵션이 늘어나면 평가가 더 현실적이고 어려워질 것입니다. 무작위로 추측하면 점수가 훨씬 낮아질 것입니다.
원래 MMLU 데이터 세트는 추론이 많이 필요하지 않은 지식 기반 질문을 주로 포함합니다. 따라서 PPL 결과는 일반적으로 CoT보다 더 좋습니다. MMLU-Pro에서 질문의 난이도를 높이고 추론 중심 질문을 더 많이 통합함으로써 CoT는 PPL보다 20% 더 높아질 수 있습니다.
MMLU-Pro는 방해 요소의 수를 늘림으로써 우연히 정답을 추측할 확률을 크게 줄여 벤치마크의 견고성을 향상시킵니다. 구체적으로, 24가지의 다양한 프롬프트 스타일을 테스트한 후, 프롬프트 변화에 대한 모델 점수의 민감도는 MMLU의 4-5%에서 MMLU-Pro의 2%로 감소했습니다.

소환

@article{wang2024mmlu,
title={Mmlu-pro: A more robust and challenging multi-task language understanding benchmark},
author={Wang, Yubo and Ma, Xueguang and Zhang, Ge and Ni, Yuansheng and Chandra, Abhranil and Guo, Shiguang and Ren, Weiming and Arulraj, Aaran and He, Xuan and Jiang, Ziyan and others},
journal={arXiv preprint arXiv:2406.01574},
year={2024}
}

MMLU-Pro.torrent

시딩 1다운로드 중 0완료됨 317총 다운로드 수 644

MMLU-Pro/
- README.md
  2.88 KB
- README.txt
  5.75 KB

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

undefined

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

이 데이터셋 사용

Discord에서 논의하기

날짜

2년 전

크기

3.48 MB

게시 URL

Paper URL

태그

질문 및 선택지: 데이터 세트의 각 질문에는 일반적으로 10개의 객관식 선택지가 있지만, 수동 검토 과정에서 비합리적인 선택지를 제거하기 위해 일부 선택지를 줄였습니다. 원래 각 질문에는 4개의 선택지가 있었으며, 선택지 추가는 문제의 복잡성과 견고성을 향상시켜 정답을 찾기 위해 더 심층적인 추론을 요구하도록 하기 위한 것입니다.
출처: 이 데이터 세트는 여러 출처의 질문을 통합한 것입니다.

원본 MMLU 문제: 데이터셋의 일부는 원본 MMLU 데이터셋에서 가져왔습니다. 사소하거나 모호한 문제는 제거했습니다.
STEM 웹사이트: 인터넷에서 엄선한 수준 높은 STEM 문제들을 모았습니다.
TheoremQA: 정리 해법이 필요한 고품질 수동 주석 문제 모음.
SciBench: 대학 시험용 과학 문제 모음.

새롭게 추가된 데이터는 생물학, 경영학, 화학, 컴퓨터 과학, 경제학, 공학, 수학, 물리학, 심리학을 포함한 STEM 웹사이트, TheoremQA 및 SciBench의 질문들을 통해 보강되었습니다. 원래의 MMLU와 비교했을 때, 세 가지 주요 차이점은 다음과 같습니다.
원래 MMLU 데이터 세트에는 옵션이 4개만 포함되어 있었지만, MMLU-Pro에서는 옵션이 10개로 늘어났습니다. 옵션이 늘어나면 평가가 더 현실적이고 어려워질 것입니다. 무작위로 추측하면 점수가 훨씬 낮아질 것입니다.
원래 MMLU 데이터 세트는 추론이 많이 필요하지 않은 지식 기반 질문을 주로 포함합니다. 따라서 PPL 결과는 일반적으로 CoT보다 더 좋습니다. MMLU-Pro에서 질문의 난이도를 높이고 추론 중심 질문을 더 많이 통합함으로써 CoT는 PPL보다 20% 더 높아질 수 있습니다.
MMLU-Pro는 방해 요소의 수를 늘림으로써 우연히 정답을 추측할 확률을 크게 줄여 벤치마크의 견고성을 향상시킵니다. 구체적으로, 24가지의 다양한 프롬프트 스타일을 테스트한 후, 프롬프트 변화에 대한 모델 점수의 민감도는 MMLU의 4-5%에서 MMLU-Pro의 2%로 감소했습니다.

소환

@article{wang2024mmlu,
title={Mmlu-pro: A more robust and challenging multi-task language understanding benchmark},
author={Wang, Yubo and Ma, Xueguang and Zhang, Ge and Ni, Yuansheng and Chandra, Abhranil and Guo, Shiguang and Ren, Weiming and Arulraj, Aaran and He, Xuan and Jiang, Ziyan and others},
journal={arXiv preprint arXiv:2406.01574},
year={2024}
}

MMLU-Pro.torrent

시딩 1다운로드 중 0완료됨 317총 다운로드 수 644

MMLU-Pro/
- README.md
  2.88 KB
- README.txt
  5.75 KB

3달 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

MMLU-Pro 대규모 멀티태스크 이해 데이터 세트

소환

AI로 AI 구축

HyperAI Newsletters

Command Palette

MMLU-Pro 대규모 멀티태스크 이해 데이터 세트

소환

undefined

MAKIEVAL 다국어 문화 지식 평가 데이터 세트

RHELM 장기 기억 평가 데이터 세트

Nemotron-SFT-Math-v4 수학적 추론 SFT 데이터셋

영화 감정 데이터셋

ChartNet 차트를 이용한 다중 모달 데이터셋 이해

EAVSD 전자상거래 광고 비디오 스토리보드 데이터셋

SMOL 다국어 번역 병렬 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

ViMU 비디오 은유 이해 데이터셋

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

MathNet 멀티모달 수학 벤치마크 추론 데이터셋

Claw-Eval 실세계 벤치마크 데이터셋

유방암: 다중 모달 융합 데이터셋

QCalEval 양자 교정 그래프 이해 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

PanScale 원격 감지 팬컬러 선명도 향상 데이터 세트

ParseBench 문서 구문 분석 기능 평가 데이터 세트

OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트

MDPBench 다국어 문서 구문 분석 벤치마크 데이터셋

GPT-5.4 단계별 추론 데이터셋

AI로 AI 구축

HyperAI Newsletters

Command Palette

MMLU-Pro 대규모 멀티태스크 이해 데이터 세트

소환

undefined

MAKIEVAL 다국어 문화 지식 평가 데이터 세트

RHELM 장기 기억 평가 데이터 세트

Nemotron-SFT-Math-v4 수학적 추론 SFT 데이터셋

영화 감정 데이터셋

ChartNet 차트를 이용한 다중 모달 데이터셋 이해

EAVSD 전자상거래 광고 비디오 스토리보드 데이터셋

SMOL 다국어 번역 병렬 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

ViMU 비디오 은유 이해 데이터셋

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

MathNet 멀티모달 수학 벤치마크 추론 데이터셋

Claw-Eval 실세계 벤치마크 데이터셋

유방암: 다중 모달 융합 데이터셋

QCalEval 양자 교정 그래프 이해 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

PanScale 원격 감지 팬컬러 선명도 향상 데이터 세트

ParseBench 문서 구문 분석 기능 평가 데이터 세트

OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트

MDPBench 다국어 문서 구문 분석 벤치마크 데이터셋

GPT-5.4 단계별 추론 데이터셋

AI로 AI 구축

HyperAI Newsletters

undefined

MAKIEVAL 다국어 문화 지식 평가 데이터 세트

RHELM 장기 기억 평가 데이터 세트

Nemotron-SFT-Math-v4 수학적 추론 SFT 데이터셋

영화 감정 데이터셋

ChartNet 차트를 이용한 다중 모달 데이터셋 이해

EAVSD 전자상거래 광고 비디오 스토리보드 데이터셋

SMOL 다국어 번역 병렬 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

ViMU 비디오 은유 이해 데이터셋

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

MathNet 멀티모달 수학 벤치마크 추론 데이터셋

Claw-Eval 실세계 벤치마크 데이터셋

유방암: 다중 모달 융합 데이터셋

QCalEval 양자 교정 그래프 이해 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

PanScale 원격 감지 팬컬러 선명도 향상 데이터 세트

ParseBench 문서 구문 분석 기능 평가 데이터 세트

OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트

MDPBench 다국어 문서 구문 분석 벤치마크 데이터셋

GPT-5.4 단계별 추론 데이터셋

undefined

MAKIEVAL 다국어 문화 지식 평가 데이터 세트