Command Palette
Search for a command to run...
SuperGPQA 과목 영역 평가 벤치마크 데이터 세트
SuperGPQA는 고급 질문 답변 시스템의 성능을 평가하기 위한 벤치마크 데이터 세트입니다. 2025년 멀티모달 아트 프로젝션 팀에서 개발했습니다. 관련 논문 결과는 다음과 같습니다.SuperGPQA: 285개 대학원 학문 분야에 걸친 LLM 평가 확장". 이 데이터셋은 자연어 처리 및 머신러닝 평가 분야에 중점을 두고 있으며, 복잡한 학제간 문제를 통해 모델의 추론 능력과 지식 수준을 평가하는 것을 목표로 합니다. 이 데이터 세트는 생물학, 물리학, 화학 및 기타 과학 분야를 포함하여 다양한 질문 유형이 포함된 285개의 대학원 수준 과목 영역을 다룹니다.