HyperAIHyperAI

Command Palette

Search for a command to run...

MMLU-Pro 大規模マルチタスク理解データセット

MMLU-Pro データセットは、大規模な言語モデルの機能をより厳密にベンチマークするように設計された、より強力でやりがいのある大規模なマルチタスク理解データセットです。このデータセットには、分野にわたる 12,000 の複雑な問題が含まれています。このデータセットは、ウォータールー大学、トロント大学、カーネギーメロン大学の研究者によって 2024 年に発表されました。関連する論文の結果は次のとおりです。MMLU-Pro: より堅牢で挑戦的なマルチタスク言語理解ベンチマーク”。

  • 質問と選択肢:データセット内の各質問には通常10個の選択肢がありますが、手動レビューの際に、不適切な選択肢を排除するために一部の選択肢が削減されました。各質問は元々4つの選択肢でしたが、選択肢を追加することで複雑さと堅牢性を向上させ、多数の選択肢の中から正解を見つけるために、より深い思考力を必要とするようにしました。
  • 出典:このデータセットは、複数の情報源からの質問を統合したものです。
  • 元のMMLUデータセットにおける問題点:データセットの一部は、元のMMLUデータセットから取得しています。些細な問題や曖昧な問題は削除しました。
  • STEMウェブサイト:インターネットから厳選された質の高いSTEM関連の質問集。
  • TheoremQA:定理による解答を必要とする、高品質な手動注釈問題。
  • SciBench:大学入試のための科学問題集。
  • 新たに追加されたデータは、STEM関連のウェブサイト、TheoremQA、SciBenchからの質問によって強化された、生物学、ビジネス、化学、コンピュータサイエンス、経済学、工学、数学、物理学、心理学といった分野を網羅しています。 オリジナルの MMLU と比較すると、次の 3 つの主な違いがあります。
  • 元の MMLU データ セットには 4 つのオプションしか含まれていませんが、MMLU-Pro ではそれが 10 のオプションに増加します。選択肢が増えると、評価がより現実的かつ困難なものになります。ランダムに推測すると、スコアは大幅に低くなります。
  • 元の MMLU データセットには、主に、あまり推論を必要としない知識主導型の質問が含まれています。したがって、PPL の結果は通常、CoT よりも優れています。 MMLU-Pro では問題の難易度が上がり、より推論に重点を置いた問題が統合されているため、CoT は PPL よりも 20% 高くなります。
  • MMLU-Pro は、ディストラクタの数を増やすことで、偶然に正しく推測する確率を大幅に減らし、ベースラインの堅牢性を向上させます。具体的には、24 の異なるキュー スタイルをテストした後、キューの変更に対するモデル スコアの感度が MMLU の 4-5% から MMLU-Pro の 2% に低下しました。
MMLU-Pro.torrent
シーディング 2ダウンロード中 0完了 290総ダウンロード数 611
  • MMLU-Pro/
    • README.md
      2.88 KB
    • README.txt
      5.75 KB
      • data/
        • MMLU-Pro.zip
          3.48 MB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MMLU-Pro 大規模マルチタスク理解データセット | データセット | HyperAI超神経