@misc{zhang2024pmmevalparallelmultilingualmultitask, title={P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs}, author={Yidan Zhang and Yu Wan and Boyi Deng and Baosong Yang and Haoran Wei and Fei Huang and Bowen Yu and Junyang Lin and Fei Huang and Jingren Zhou}, year={2024}, eprint={2411.09116}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.09116}, }

日期

2 年前

大小

12.72 MB

数据集组织

论文 URL

arxiv.org

标签

基准

P-MMEval 数据集是由阿里巴巴集团通义实验室于 2024 年创建的一个大规模多语言多任务基准数据集，旨在全面评估大语言模型 (LLMs) 的多语言能力。相关论文成果为「P-MMEVAL: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs」该数据集包含 3 个基础自然语言处理 (NLP) 数据集和 5 个高级能力专项数据集，涵盖了代码生成、知识理解、数学推理、逻辑推理和指令跟随等任务。通过专家翻译审查，P-MMEval 确保了 10 种语言的一致覆盖，并提供了跨语言的平行样本。这些语言包括英语、中文、阿拉伯语、西班牙语、日语、韩语、泰语、法语、葡萄牙语和越南语。

Citation

@misc{zhang2024pmmevalparallelmultilingualmultitask,
title={P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs},
author={Yidan Zhang and Yu Wan and Boyi Deng and Baosong Yang and Haoran Wei and Fei Huang and Bowen Yu and Junyang Lin and Fei Huang and Jingren Zhou},
year={2024},
eprint={2411.09116},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.09116},
}

P-MMEval.torrent

做种 1正在下载 0已完成 173总下载量 241

P-MMEval/
- README.md
  1.48 KB
- README.txt
  2.97 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

2 年前

大小

12.72 MB

数据集组织

论文 URL

arxiv.org

标签

基准

Citation

@misc{zhang2024pmmevalparallelmultilingualmultitask,
title={P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs},
author={Yidan Zhang and Yu Wan and Boyi Deng and Baosong Yang and Haoran Wei and Fei Huang and Bowen Yu and Junyang Lin and Fei Huang and Jingren Zhou},
year={2024},
eprint={2411.09116},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.09116},
}

P-MMEval.torrent

做种 1正在下载 0已完成 173总下载量 241

P-MMEval/
- README.md
  1.48 KB
- README.txt
  2.97 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

MAKIEVAL 多语言文化知识评估数据集

15 天前

SAM 3D Artist Objects 3D 物体重建数据集

21 天前

TACK 靶向嵌合体知识库数据集

1 个月前

SMOL 多语言翻译平行数据集

1 个月前

chi-bench 医疗智能体基准评测数据集

1 个月前

ViMU 视频隐喻理解数据集

1 个月前

MathNet 多模态数学基准推理数据集

2 个月前

Claw-Eval 真实世界评测基准数据集

2 个月前

RSRCC 遥感区域变化理解基准数据集

24 天前

PanScale 遥感全色锐化数据集

2 个月前

ParseBench 文档解析能力评测数据集

3 个月前

OmniParsingBench 多模态解析能力评估数据集

24 天前

MDPBench 多语言文档解析基准数据集

24 天前

DRACO 跨领域深度研究基准数据集

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

P-MMEval 多语言多任务基准数据集

Citation

用 AI 构建 AI

HyperAI Newsletters

Command Palette

P-MMEval 多语言多任务基准数据集

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

TACK 靶向嵌合体知识库数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

RSRCC 遥感区域变化理解基准数据集

PanScale 遥感全色锐化数据集

ParseBench 文档解析能力评测数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集

DRACO 跨领域深度研究基准数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

P-MMEval 多语言多任务基准数据集

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

TACK 靶向嵌合体知识库数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

RSRCC 遥感区域变化理解基准数据集

PanScale 遥感全色锐化数据集

ParseBench 文档解析能力评测数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集

DRACO 跨领域深度研究基准数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

TACK 靶向嵌合体知识库数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

RSRCC 遥感区域变化理解基准数据集

PanScale 遥感全色锐化数据集

ParseBench 文档解析能力评测数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集

DRACO 跨领域深度研究基准数据集

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

TACK 靶向嵌合体知识库数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

RSRCC 遥感区域变化理解基准数据集

PanScale 遥感全色锐化数据集

ParseBench 文档解析能力评测数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集

DRACO 跨领域深度研究基准数据集