HyperAI초신경

HLE는 Humanity's Last Exam의 약자로, 2025년 AI Safety and Scale AI 센터에서 공동으로 발표한 다중 모드 인간 문제 벤치마크 데이터 세트입니다. 관련 논문 결과는 다음과 같습니다.인류의 마지막 시험"는 인간 지식의 최전선을 포괄하는 궁극적인 폐쇄형 평가 시스템을 구축하는 것을 목표로 합니다.

이 데이터 세트에는 수학, 인문학, 자연 과학 등 수십 가지 과목을 포괄하는 2,500개의 질문이 포함되어 있으며, 여기에는 자동 채점에 적합한 객관식 문제와 단답형 문제가 포함됩니다.

주제 분포:

수학(41%):고급 수학, 확률 이론, 알고리즘 설계와 같은 추상적인 문제.

컴퓨터 과학/인공지능(10%):머신러닝 이론, 계산 복잡도, 자연어 처리.

자연과학(27%):물리학(9%), 화학(7%), 생물학/의학(11%)에는 양자 물리학, 유기 합성, 병리학적 메커니즘 등이 포함됩니다.

인문학/사회과학(9%):철학, 역사, 경제학, 사회학의 비판적 분석 문제.

공학(4%) 및 기타 학문(9%):공학 설계, 미술사, 학제간 첨단 이슈를 다룹니다.

훈련 분배

HLE 인간 질문 추론 벤치마크 데이터 세트

주제 분포: