日付

1年前

サイズ

227.35 MB

Paper URL

タグ

HLE は「人類の最後の試験」の略で、2025 年に AI 安全性センターとスケール AI が共同でリリースしたマルチモーダルな人間の問題ベンチマークデータセットです。関連する論文の結果は次のとおりです。人類最後の試験」は、人類の知の限界を網羅する究極のクローズド評価システムの構築を目指しています。このデータセットには、自動採点に適した多肢選択式問題や短答式問題など、数学、人文科学、自然科学など数十の科目を網羅した 2,500 の質問が含まれています。

被験者の分布:

**数学（41%）：**高度な数学、確率論、アルゴリズム設計などの抽象的な問題。
**コンピュータサイエンス/人工知能（10%）：**機械学習理論、計算複雑性、自然言語処理。
**自然科学（27%）：**物理学（9%）、化学（7%）、生物学/医学（11%）、量子物理学、有機合成、病理学的メカニズムなど。
**人文科学/社会科学（9%）：**哲学、歴史、経済学、社会学における批判的分析の質問。
**工学（4%）およびその他の分野（9%）：**エンジニアリングデザイン、美術史、学際的な最先端の問題を取り上げます。規律の配分

hle.torrent

シーディング 1ダウンロード中 0完了 246総ダウンロード数 623

hle/
- README.md
  1.69 KB
- README.txt
  3.37 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用

Discordで議論

日付

1年前

サイズ

227.35 MB

Paper URL

タグ

被験者の分布:

**数学（41%）：**高度な数学、確率論、アルゴリズム設計などの抽象的な問題。
**コンピュータサイエンス/人工知能（10%）：**機械学習理論、計算複雑性、自然言語処理。
**自然科学（27%）：**物理学（9%）、化学（7%）、生物学/医学（11%）、量子物理学、有機合成、病理学的メカニズムなど。
**人文科学/社会科学（9%）：**哲学、歴史、経済学、社会学における批判的分析の質問。
**工学（4%）およびその他の分野（9%）：**エンジニアリングデザイン、美術史、学際的な最先端の問題を取り上げます。規律の配分

hle.torrent

シーディング 1ダウンロード中 0完了 246総ダウンロード数 623

hle/
- README.md
  1.69 KB
- README.txt
  3.37 KB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

HLE 人間の質問推論ベンチマークデータセット

被験者の分布:

AIでAIを構築

HyperAI Newsletters

Command Palette

HLE 人間の質問推論ベンチマークデータセット

被験者の分布:

関連データセット

DRACOクロスドメイン深層研究ベンチマークデータセット

地上情報源による世界洪水イベントデータセット

CHIMERA一般推論合成データセット

肺がん臨床データセット

汎がんscRNA-Seqがん単一細胞転写アトラスデータセット

THINGS-EEG EEGデータセット

THINGS-MEG磁気脳波データセット

THINGS-fMRI機能的磁気共鳴画像データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

Nemotron-Math-v2 数学推論データセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

X線密輸品検出データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

HLE 人間の質問推論ベンチマークデータセット

被験者の分布:

関連データセット

DRACOクロスドメイン深層研究ベンチマークデータセット

地上情報源による世界洪水イベントデータセット

CHIMERA一般推論合成データセット

肺がん臨床データセット

汎がんscRNA-Seqがん単一細胞転写アトラスデータセット

THINGS-EEG EEGデータセット

THINGS-MEG磁気脳波データセット

THINGS-fMRI機能的磁気共鳴画像データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

Nemotron-Math-v2 数学推論データセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

X線密輸品検出データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

DRACOクロスドメイン深層研究ベンチマークデータセット

地上情報源による世界洪水イベントデータセット

CHIMERA一般推論合成データセット

肺がん臨床データセット

汎がんscRNA-Seqがん単一細胞転写アトラスデータセット

THINGS-EEG EEGデータセット

THINGS-MEG磁気脳波データセット

THINGS-fMRI機能的磁気共鳴画像データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

Nemotron-Math-v2 数学推論データセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

X線密輸品検出データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

関連データセット

DRACOクロスドメイン深層研究ベンチマークデータセット

地上情報源による世界洪水イベントデータセット

CHIMERA一般推論合成データセット

肺がん臨床データセット

汎がんscRNA-Seqがん単一細胞転写アトラスデータセット

THINGS-EEG EEGデータセット

THINGS-MEG磁気脳波データセット

THINGS-fMRI機能的磁気共鳴画像データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

Nemotron-Math-v2 数学推論データセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

X線密輸品検出データセット

LongBench-Pro ロングコンテキスト包括的評価データセット