@misc{zhang2024pmmevalparallelmultilingualmultitask, title={P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs}, author={Yidan Zhang and Yu Wan and Boyi Deng and Baosong Yang and Haoran Wei and Fei Huang and Bowen Yu and Junyang Lin and Fei Huang and Jingren Zhou}, year={2024}, eprint={2411.09116}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.09116}, }

Date

2 years ago

Size

12.72 MB

Organization

Paper URL

arxiv.org

Citation

@misc{zhang2024pmmevalparallelmultilingualmultitask,
title={P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs},
author={Yidan Zhang and Yu Wan and Boyi Deng and Baosong Yang and Haoran Wei and Fei Huang and Bowen Yu and Junyang Lin and Fei Huang and Jingren Zhou},
year={2024},
eprint={2411.09116},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.09116},
}

P-MMEval.torrent

Seeding 1Downloading 0Completed 173Total Downloads 241

P-MMEval/
- README.md
  1.48 KB
- README.txt
  2.97 KB

This dataset is contributed by community users and is intended for educational and informational purposes only. If any content involves copyright infringement, please contact us at [email protected] for prompt review and removal.

Related Datasets

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

Subscribe to our latest updates

We will deliver the latest updates of the week to your inbox at nine o'clock every Monday morning

HyperAI

Use this Dataset

Discuss on Discord

Date

2 years ago

Size

12.72 MB

Organization

Paper URL

arxiv.org

Citation

@misc{zhang2024pmmevalparallelmultilingualmultitask,
title={P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs},
author={Yidan Zhang and Yu Wan and Boyi Deng and Baosong Yang and Haoran Wei and Fei Huang and Bowen Yu and Junyang Lin and Fei Huang and Jingren Zhou},
year={2024},
eprint={2411.09116},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.09116},
}

P-MMEval.torrent

Seeding 1Downloading 0Completed 173Total Downloads 241

P-MMEval/
- README.md
  1.48 KB
- README.txt
  2.97 KB

Related Datasets

MAKIEVAL Multilingual Cultural Knowledge Assessment Dataset

10 hours ago

SAM 3D Artist Objects 3D Object Reconstruction Dataset

5 days ago

TACK Targeted Chimera Knowledge Base Dataset

22 days ago

SMOL Multilingual Translation Parallel Dataset

a month ago

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

13 days ago

ViMU Video Metaphor Understanding Dataset

a month ago

MathNet Multimodal Mathematical Benchmark Inference Dataset

a month ago

Claw-Eval Real-World Benchmark Dataset

a month ago

RSRCC Remote Sensing Area Change Understanding Benchmark Dataset

8 days ago

PanScale Remote Sensing Pancolor Sharpening Dataset

2 months ago

ParseBench Document Parsing Capability Evaluation Dataset

2 months ago

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

8 days ago

MDPBench Multilingual Document Parsing Benchmark Dataset

8 days ago

DRACO Cross-Disciplinary Deep Research Benchmark Dataset

2 months ago

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

Subscribe to our latest updates

We will deliver the latest updates of the week to your inbox at nine o'clock every Monday morning

Command Palette

P-MMEval multi-language multi-task Benchmark Dataset

Citation

Build AI with AI

HyperAI Newsletters

Command Palette

P-MMEval multi-language multi-task Benchmark Dataset

Citation

Related Datasets

MAKIEVAL Multilingual Cultural Knowledge Assessment Dataset

SAM 3D Artist Objects 3D Object Reconstruction Dataset

TACK Targeted Chimera Knowledge Base Dataset

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU Video Metaphor Understanding Dataset

MathNet Multimodal Mathematical Benchmark Inference Dataset

Claw-Eval Real-World Benchmark Dataset

RSRCC Remote Sensing Area Change Understanding Benchmark Dataset

PanScale Remote Sensing Pancolor Sharpening Dataset

ParseBench Document Parsing Capability Evaluation Dataset

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

MDPBench Multilingual Document Parsing Benchmark Dataset

DRACO Cross-Disciplinary Deep Research Benchmark Dataset

Build AI with AI

HyperAI Newsletters

Command Palette

P-MMEval multi-language multi-task Benchmark Dataset

Citation

Related Datasets

MAKIEVAL Multilingual Cultural Knowledge Assessment Dataset

SAM 3D Artist Objects 3D Object Reconstruction Dataset

TACK Targeted Chimera Knowledge Base Dataset

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU Video Metaphor Understanding Dataset

MathNet Multimodal Mathematical Benchmark Inference Dataset

Claw-Eval Real-World Benchmark Dataset

RSRCC Remote Sensing Area Change Understanding Benchmark Dataset

PanScale Remote Sensing Pancolor Sharpening Dataset

ParseBench Document Parsing Capability Evaluation Dataset

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

MDPBench Multilingual Document Parsing Benchmark Dataset

DRACO Cross-Disciplinary Deep Research Benchmark Dataset

Build AI with AI

HyperAI Newsletters

Related Datasets

MAKIEVAL Multilingual Cultural Knowledge Assessment Dataset

SAM 3D Artist Objects 3D Object Reconstruction Dataset

TACK Targeted Chimera Knowledge Base Dataset

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU Video Metaphor Understanding Dataset

MathNet Multimodal Mathematical Benchmark Inference Dataset

Claw-Eval Real-World Benchmark Dataset

RSRCC Remote Sensing Area Change Understanding Benchmark Dataset

PanScale Remote Sensing Pancolor Sharpening Dataset

ParseBench Document Parsing Capability Evaluation Dataset

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

MDPBench Multilingual Document Parsing Benchmark Dataset

DRACO Cross-Disciplinary Deep Research Benchmark Dataset

Related Datasets

MAKIEVAL Multilingual Cultural Knowledge Assessment Dataset

SAM 3D Artist Objects 3D Object Reconstruction Dataset

TACK Targeted Chimera Knowledge Base Dataset

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU Video Metaphor Understanding Dataset

MathNet Multimodal Mathematical Benchmark Inference Dataset

Claw-Eval Real-World Benchmark Dataset

RSRCC Remote Sensing Area Change Understanding Benchmark Dataset

PanScale Remote Sensing Pancolor Sharpening Dataset

ParseBench Document Parsing Capability Evaluation Dataset

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

MDPBench Multilingual Document Parsing Benchmark Dataset

DRACO Cross-Disciplinary Deep Research Benchmark Dataset