HLE 人間の質問推論ベンチマークデータセット
HLEは、AI SafetyセンターとScale AIが共同で公開した、人間の問題を対象としたマルチモーダルベンチマークデータセットです。関連する論文の結果は以下の通りです。人類最後の試験」は、人類の知の限界を網羅する究極のクローズド評価システムの構築を目指しています。
このデータセットには、自動採点に適した多肢選択式問題や短答式問題など、数学、人文科学、自然科学など数十の科目を網羅した 2,500 の質問が含まれています。
被験者の分布:
- 数学(41%):高度な数学、確率論、アルゴリズム設計などの抽象的な問題。
- コンピュータサイエンス/人工知能(10%):機械学習理論、計算複雑性、自然言語処理。
- 自然科学(27%):物理学(9%)、化学(7%)、生物学/医学(11%)、量子物理学、有機合成、病理学的メカニズムなど。
- 人文科学/社会科学(9%):哲学、歴史、経済学、社会学における批判的分析の質問。
- 工学(4%)およびその他の分野(9%):エンジニアリングデザイン、美術史、学際的な最先端の問題を取り上げます。

規律の配分
hle.torrent
シーディング 2ダウンロード中 0ダウンロード完了 0総ダウンロード数 2