*该数据集支持在线使用,点击此处跳转。
P-MMEval 数据集是由阿里巴巴集团通义实验室于 2024 年创建的一个大规模多语言多任务基准数据集,旨在全面评估大语言模型 (LLMs) 的多语言能力。相关论文成果为「P-MMEVAL: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs」
该数据集包含 3 个基础自然语言处理 (NLP) 数据集和 5 个高级能力专项数据集,涵盖了代码生成、知识理解、数学推理、逻辑推理和指令跟随等任务。通过专家翻译审查,P-MMEval 确保了 10 种语言的一致覆盖,并提供了跨语言的平行样本。这些语言包括英语、中文、阿拉伯语、西班牙语、日语、韩语、泰语、法语、葡萄牙语和越南语。
P-MMEval.torrent
做种 2下载中 0已完成 18总下载 36