HyperAI超神経

HLE 人間の質問推論ベンチマークデータセット

HLEは、AI SafetyセンターとScale AIが共同で公開した、人間の問題を対象としたマルチモーダルベンチマークデータセットです。関連する論文の結果は以下の通りです。人類最後の試験」は、人類の知の限界を網羅する究極のクローズド評価システムの構築を目指しています。

このデータセットには、自動採点に適した多肢選択式問題や短答式問題など、数学、人文科学、自然科学など数十の科目を網羅した 2,500 の質問が含まれています。

被験者の分布:

  • 数学(41%):高度な数学、確率論、アルゴリズム設計などの抽象的な問題。
  • コンピュータサイエンス/人工知能(10%):機械学習理論、計算複雑性、自然言語処理。
  • 自然科学(27%):物理学(9%)、化学(7%)、生物学/医学(11%)、量子物理学、有機合成、病理学的メカニズムなど。
  • 人文科学/社会科学(9%):哲学、歴史、経済学、社会学における批判的分析の質問。
  • 工学(4%)およびその他の分野(9%):エンジニアリングデザイン、美術史、学際的な最先端の問題を取り上げます。

規律の配分

hle.torrent
シーディング 2ダウンロード中 0ダウンロード完了 0総ダウンロード数 2
  • hle/
    • README.md
      1.69 KB
    • README.txt
      3.37 KB
      • data/
        • hle.zip
          227.35 MB