MMLU-Pro 大规模多任务理解数据集
* 该数据集支持在线使用,点击此处跳转。
MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。该数据集由滑铁卢大学,多伦多大学,卡内基梅隆大学的研究人员于 2024 年发布,相关论文成果为「MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark」。
- 问题和选项:数据集中的每个问题通常有 10 个多项选择题选项,但在人工审核过程中,一些选项被缩减,以消除不合理的选项。每个问题原来有 4 个选项,现在增加选项是为了提高复杂性和稳健性,这需要更深层次的推理,才能在大量潜在干扰项中找出正确答案。
- 来源:该数据集整合了来自多个来源的问题:
- 原始 MMLU 问题:部分数据集来自原始 MMLU 数据集。我们删除了琐碎和模棱两可的问题。
- STEM 网站:从互联网上精心挑选高质量的 STEM 问题。
- TheoremQA:需要用定理来解决的高质量人工注释问题。
- SciBench:大学考试的科学题目。
- 新添加数据涵盖的学科:通过来自 STEM 网站、 TheoremQA 和 SciBench 的问题增强的学科包括生物学、商业、化学、计算机科学、经济学、工程学、数学、物理学和心理学。
与原版 MMLU 相比,主要有以下 3 个区别:
MMLU-Pro.torrent
做种 2正在下载 0已完成 75总下载次数 236