HyperAI초신경

HLE 인간 질문 추론 벤치마크 데이터 세트

HLE는 AI 안전 및 규모 AI 센터(Center for AI Safety and Scale AI)에서 공동으로 발표한 다중 모드 인간 문제 벤치마크 데이터셋입니다. 관련 논문 결과는 다음과 같습니다.인류의 마지막 시험"는 인간 지식의 최전선을 포괄하는 궁극적인 폐쇄형 평가 시스템을 구축하는 것을 목표로 합니다.

이 데이터 세트에는 수학, 인문학, 자연 과학 등 수십 가지 과목을 포괄하는 2,500개의 질문이 포함되어 있으며, 여기에는 자동 채점에 적합한 객관식 문제와 단답형 문제가 포함됩니다.

주제 분포:

  • 수학(41%):고급 수학, 확률 이론, 알고리즘 설계와 같은 추상적인 문제.
  • 컴퓨터 과학/인공지능(10%):머신러닝 이론, 계산 복잡도, 자연어 처리.
  • 자연과학(27%):물리학(9%), 화학(7%), 생물학/의학(11%)에는 양자 물리학, 유기 합성, 병리학적 메커니즘 등이 포함됩니다.
  • 인문학/사회과학(9%):철학, 역사, 경제학, 사회학의 비판적 분석 문제.
  • 공학(4%) 및 기타 학문(9%):공학 설계, 미술사, 학제간 첨단 이슈를 다룹니다.

훈련 분배

hle.torrent
시딩 1다운로드 중 0완료됨 0총 다운로드 횟수 2
  • hle/
    • README.md
      1.69 KB
    • README.txt
      3.37 KB
      • data/
        • hle.zip
          227.35 MB