SuperGPQA 과목 영역 평가 벤치마크 데이터 세트
SuperGPQA는 고급 질문 답변 시스템의 성능을 평가하기 위한 벤치마크 데이터 세트입니다. 2025년 멀티모달 아트 프로젝션 팀에서 개발했습니다. 관련 논문 결과는 다음과 같습니다.SuperGPQA: 285개 대학원 학문 분야에 걸친 LLM 평가 확장". 이 데이터셋은 자연어 처리 및 머신러닝 평가 분야에 중점을 두고 있으며, 복잡한 학제간 문제를 통해 모델의 추론 능력과 지식 수준을 평가하는 것을 목표로 합니다.
이 데이터 세트는 생물학, 물리학, 화학 및 기타 과학 분야를 포함하여 다양한 질문 유형이 포함된 285개의 대학원 수준 과목 영역을 다룹니다.