HLE 人間の質問推論ベンチマークデータセット

HLE は「人類の最後の試験」の略で、2025 年に AI 安全性センターとスケール AI が共同でリリースしたマルチモーダルな人間の問題ベンチマーク データセットです。関連する論文の結果は次のとおりです。人類最後の試験」は、人類の知の限界を網羅する究極のクローズド評価システムの構築を目指しています。

このデータセットには、自動採点に適した多肢選択式問題や短答式問題など、数学、人文科学、自然科学など数十の科目を網羅した 2,500 の質問が含まれています。

被験者の分布:

  • 数学(41%):高度な数学、確率論、アルゴリズム設計などの抽象的な問題。
  • コンピュータサイエンス/人工知能(10%):機械学習理論、計算複雑性、自然言語処理。
  • 自然科学(27%):物理学(9%)、化学(7%)、生物学/医学(11%)、量子物理学、有機合成、病理学的メカニズムなど。
  • 人文科学/社会科学(9%):哲学、歴史、経済学、社会学における批判的分析の質問。
  • 工学(4%)およびその他の分野(9%):エンジニアリングデザイン、美術史、学際的な最先端の問題を取り上げます。

規律の配分

hle.torrent
シーディング 1ダウンロード中 0ダウンロード完了 49総ダウンロード数 177
  • hle/
    • README.md
      1.69 KB
    • README.txt
      3.37 KB
      • data/
        • hle.zip
          227.35 MB