HyperAI超神经

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。

MMLU-Pro データセットは、大規模な言語モデルの機能をより厳密にベンチマークするように設計された、より強力でやりがいのある大規模なマルチタスク理解データセットです。このデータセットには、分野にわたる 12,000 の複雑な問題が含まれています。このデータセットは、ウォータールー大学、トロント大学、カーネギーメロン大学の研究者によって 2024 年に発表されました。関連する論文の結果は次のとおりです。MMLU-Pro: より堅牢で挑戦的なマルチタスク言語理解ベンチマーク”。

質問とオプション:通常、データセット内の各質問には 10 個の多肢選択式の選択肢がありますが、手動レビュープロセス中に、不合理な選択肢を排除するために一部の選択肢が削減されました。各質問には元々 4 つの選択肢がありましたが、複雑さと堅牢性を高めるためにオプションが追加されました。これには、多数の潜在的な注意散漫の中から正しい答えを見つけるためにより深い推論が必要です。
ソース：このデータセットは、複数のソースからの質問を組み合わせたものです。
- MMLU の元の質問:データセットの一部は、元の MMLU データセットから取得されます。些細で曖昧な質問を削除しました。
- STEM ウェブサイト:インターネット上から厳選された高品質の STEM 質問。
- 定理QA:定理を解く必要がある高品質のヒューマンアノテーション問題。
- サイエンスベンチ:大学受験のための科学の質問。
新しく追加されたデータの対象となる専門分野:STEM サイト、TheoremQA、SciBench からの質問で強化された主題には、生物学、ビジネス、化学、コンピューターサイエンス、経済学、工学、数学、物理学、心理学が含まれます。

オリジナルの MMLU と比較すると、次の 3 つの主な違いがあります。

元の MMLU データセットには 4 つのオプションしか含まれていませんが、MMLU-Pro ではそれが 10 のオプションに増加します。選択肢が増えると、評価がより現実的かつ困難なものになります。ランダムに推測すると、スコアは大幅に低くなります。
元の MMLU データセットには、主に、あまり推論を必要としない知識主導型の質問が含まれています。したがって、PPL の結果は通常、CoT よりも優れています。 MMLU-Pro では問題の難易度が上がり、より推論に重点を置いた問題が統合されているため、CoT は PPL よりも 20% 高くなります。
MMLU-Pro は、ディストラクタの数を増やすことで、偶然に正しく推測する確率を大幅に減らし、ベースラインの堅牢性を向上させます。具体的には、24 の異なるキュースタイルをテストした後、キューの変更に対するモデルスコアの感度が MMLU の 4-5% から MMLU-Pro の 2% に低下しました。

MMLU-Pro 大規模マルチタスク理解データセット

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。