HyperAI超神经

MMLU-Pro 大规模多任务理解数据集

日期

7 个月前

大小

3.48 MB

发布地址

github.com

* 该数据集支持在线使用,点击此处跳转

MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。该数据集由滑铁卢大学,多伦多大学,卡内基梅隆大学的研究人员于 2024 年发布,相关论文成果为「MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark」。

  • 问题和选项:数据集中的每个问题通常有 10 个多项选择题选项,但在人工审核过程中,一些选项被缩减,以消除不合理的选项。每个问题原来有 4 个选项,现在增加选项是为了提高复杂性和稳健性,这需要更深层次的推理,才能在大量潜在干扰项中找出正确答案。
  • 来源:该数据集整合了来自多个来源的问题:
    • 原始 MMLU 问题:部分数据集来自原始 MMLU 数据集。我们删除了琐碎和模棱两可的问题。
    • STEM 网站:从互联网上精心挑选高质量的 STEM 问题。
    • TheoremQA:需要用定理来解决的高质量人工注释问题。
    • SciBench:大学考试的科学题目。
  • 新添加数据涵盖的学科:通过来自 STEM 网站、 TheoremQA 和 SciBench 的问题增强的学科包括生物学、商业、化学、计算机科学、经济学、工程学、数学、物理学和心理学。

与原版 MMLU 相比,主要有以下 3 个区别:

  • 原始 MMLU 数据集仅包含 4 个选项,MMLU-Pro 将其增加到 10 个选项。选项的增加将使评估更加真实和具有挑战性。随机猜测将导致得分低得多。
  • 原始 MMLU 数据集主要包含知识驱动的问题,不需要太多推理。因此,PPL 结果通常比 CoT 更好。在 MMLU-Pro 中增加了问题难度并集成了更多以推理为重点的问题,CoT 可以比 PPL 高 20% 。
  • 通过增加干扰项数量,MMLU-Pro 显著降低了偶然猜对的概率,从而提高了基准的稳健性。具体来说,在测试了 24 种不同的提示风格后,模型得分对提示变化的敏感度从 MMLU 中的 4-5% 下降到 MMLU-Pro 中的 2% 。
MMLU-Pro.torrent
做种 2正在下载 0已完成 75总下载次数 236
  • MMLU-Pro/
    • README.md
      2.88 KB
    • README.txt
      5.75 KB
      • data/
        • MMLU-Pro.zip
          3.48 MB