HyperAI超神经

* 该数据集支持在线使用，点击此处跳转。

MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集，旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。该数据集由滑铁卢大学，多伦多大学，卡内基梅隆大学的研究人员于 2024 年发布，相关论文成果为「MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark」。

问题和选项：数据集中的每个问题通常有 10 个多项选择题选项，但在人工审核过程中，一些选项被缩减，以消除不合理的选项。每个问题原来有 4 个选项，现在增加选项是为了提高复杂性和稳健性，这需要更深层次的推理，才能在大量潜在干扰项中找出正确答案。
来源：该数据集整合了来自多个来源的问题：
- 原始 MMLU 问题：部分数据集来自原始 MMLU 数据集。我们删除了琐碎和模棱两可的问题。
- STEM 网站：从互联网上精心挑选高质量的 STEM 问题。
- TheoremQA：需要用定理来解决的高质量人工注释问题。
- SciBench：大学考试的科学题目。
新添加数据涵盖的学科：通过来自 STEM 网站、 TheoremQA 和 SciBench 的问题增强的学科包括生物学、商业、化学、计算机科学、经济学、工程学、数学、物理学和心理学。

与原版 MMLU 相比，主要有以下 3 个区别：

原始 MMLU 数据集仅包含 4 个选项，MMLU-Pro 将其增加到 10 个选项。选项的增加将使评估更加真实和具有挑战性。随机猜测将导致得分低得多。
原始 MMLU 数据集主要包含知识驱动的问题，不需要太多推理。因此，PPL 结果通常比 CoT 更好。在 MMLU-Pro 中增加了问题难度并集成了更多以推理为重点的问题，CoT 可以比 PPL 高 20% 。
通过增加干扰项数量，MMLU-Pro 显著降低了偶然猜对的概率，从而提高了基准的稳健性。具体来说，在测试了 24 种不同的提示风格后，模型得分对提示变化的敏感度从 MMLU 中的 4-5% 下降到 MMLU-Pro 中的 2% 。

MMLU-Pro 大规模多任务理解数据集

* 该数据集支持在线使用，点击此处跳转。