HyperAI
Command Palette
Search for a command to run...
MMLU-Pro 大規模マルチタスク理解データセット
MMLU-Pro データセットは、大規模な言語モデルの機能をより厳密にベンチマークするように設計された、より強力でやりがいのある大規模なマルチタスク理解データセットです。このデータセットには、分野にわたる 12,000 の複雑な問題が含まれています。このデータセットは、ウォータールー大学、トロント大学、カーネギーメロン大学の研究者によって 2024 年に発表されました。関連する論文の結果は次のとおりです。MMLU-Pro: より堅牢で挑戦的なマルチタスク言語理解ベンチマーク”。
- 質問と選択肢:データセット内の各質問には通常10個の選択肢がありますが、手動レビューの際に、不適切な選択肢を排除するために一部の選択肢が削減されました。各質問は元々4つの選択肢でしたが、選択肢を追加することで複雑さと堅牢性を向上させ、多数の選択肢の中から正解を見つけるために、より深い思考力を必要とするようにしました。
- 出典:このデータセットは、複数の情報源からの質問を統合したものです。
- 元のMMLUデータセットにおける問題点:データセットの一部は、元のMMLUデータセットから取得しています。些細な問題や曖昧な問題は削除しました。
- STEMウェブサイト:インターネットから厳選された質の高いSTEM関連の質問集。
- TheoremQA:定理による解答を必要とする、高品質な手動注釈問題。
- SciBench:大学入試のための科学問題集。
- 新たに追加されたデータは、STEM関連のウェブサイト、TheoremQA、SciBenchからの質問によって強化された、生物学、ビジネス、化学、コンピュータサイエンス、経済学、工学、数学、物理学、心理学といった分野を網羅しています。 オリジナルの MMLU と比較すると、次の 3 つの主な違いがあります。
- 元の MMLU データ セットには 4 つのオプションしか含まれていませんが、MMLU-Pro ではそれが 10 のオプションに増加します。選択肢が増えると、評価がより現実的かつ困難なものになります。ランダムに推測すると、スコアは大幅に低くなります。
- 元の MMLU データセットには、主に、あまり推論を必要としない知識主導型の質問が含まれています。したがって、PPL の結果は通常、CoT よりも優れています。 MMLU-Pro では問題の難易度が上がり、より推論に重点を置いた問題が統合されているため、CoT は PPL よりも 20% 高くなります。
- MMLU-Pro は、ディストラクタの数を増やすことで、偶然に正しく推測する確率を大幅に減らし、ベースラインの堅牢性を向上させます。具体的には、24 の異なるキュー スタイルをテストした後、キューの変更に対するモデル スコアの感度が MMLU の 4-5% から MMLU-Pro の 2% に低下しました。
MMLU-Pro.torrent
シーディング 2ダウンロード中 0完了 290総ダウンロード数 611
このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。