大规模多任务语言理解(MMLU)
大规模多任务语言理解(Massive Multi-task Language Understanding, 也称 MMLU)是一项综合评估,旨在通过评估零样本和少样本设置下的模型来衡量文本模型的多任务准确性。相关论文成果「MEASURING MASSIVE MULTITASK LANGUAGE UNDERSTANDING」于 2021 年提出并出版于 ICLR 2021 。
MMLU 提供了一种测试和比较各种语言模型的方法,例如对 OpenAI GPT-4 、 Mistral 7b 、 Google Gemini 和 Anthropic Claude 2 等的测试。它涵盖基础数学、美国历史、计算机科学和法律等 57 项任务,需要模型展示其广泛的知识基础和解决问题的能力。
MMLU 基准测试的关键细节
- 训练和验证集:该数据集包含 15,908 个问题,分为一个 few-shot 开发集、一个验证集和一个测试集。 Few-shot 开发集的每个主题有 5 个问题,验证集可用于选择超参数,由 1540 个问题组成,测试集有 14,079 个问题。
- 模型性能:MMLU 的初步结果显示,较小的 LLM 在准确率上表现在随机水平(准确率为 25%),而较大的 GPT-3(1,750 亿个参数)表现更好,few-shot 准确率为 43.9%,zero-shot 准确率为 37.7% 。到了 2023 年,GPT-4 达到了 86.4% 的 5-shot 准确率,Google Gemini 达到了 83.7% 的 5-shot 准确率。然而,即使是最好的模型在达到人类专家级准确率(89.8%)之前仍需要实质性的改进。
- 具有挑战性的科目:模型,尤其是大型语言模型 (LLM) 在计算密集型任务(如物理和数学)和人文主题(如道德和法律)方面表现较差。
MMLU 基准测试的主要特点
MMLU 基准衡量语言模型在各种任务中的表现,涵盖 STEM 、人文、社会科学等学科。 MMLU 基准测试的一些主要功能包括:
- 57 个科目:该基准涵盖各个领域的 57 个科目,涉及从基础数学到法律和道德等领域的高级专业水平。
- 粒度和广度:MMLU 测试世界知识和解决问题的能力,使其成为识别模型对各种主题的理解的理想选择。
- 多任务准确性:该测试通过涵盖多样化的任务来测量模型的多任务准确性,确保对模型的学术和专业知识进行全面评估。
- 无需大型训练集:与其他一些基准测试不同,MMLU 不需要大型训练集。相反,它假设模型已经通过阅读大量不同的文本获得了必要的知识,这个过程通常称为预训练。
这些关键功能使 MMLU 基准测试成为评估语言模型性能及其在各种语境中理解和生成语言的能力的宝贵工具。
MMLU 的运作方式
MMLU 基准测试通过评估语言模型在各种任务中的性能来工作。它衡量模型在不同语境中理解和生成语言的能力,包括机器翻译、文本摘要和情感分析。
最终的 MMLU 分数是每个任务中获得的分数的平均值,提供了模型整体性能的全面度量。
MMLU 的优点
MMLU 基准测试有很多好处,其中最重要的三点是:
- 它提供了一种比较不同语言模型性能的定量方法。
- 它可以高效计算并且易于理解。
- 它考虑了模型在各种语境中理解和生成语言的能力,可以捕捉语言结构的某些方面。
MMLU 的限制
MMLU 基准测试也存在一些问题,使其成为一个不理想的基准测试:
- 问题中缺少关键的上下文:MMLU 基准测试中的某些问题缺少上下文,这使得它们很难或不可能正确回答,这些问题可能是由于复制粘贴错误造成的。
- 答案集模糊:该基准测试包含具有模糊答案集的问题,可能导致混淆和对模型性能的错误评估。
- 错误的答案集:MMLU 基准测试中的一些问题具有错误的答案集,这可能会导致误导性的评估结果。
- 对提示的敏感性:MMLU 对所使用的确切提示极其敏感,这可能会导致性能因提示而产生显著差异。
参考来源