@misc{zhang2024pmmevalparallelmultilingualmultitask, title={P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs}, author={Yidan Zhang and Yu Wan and Boyi Deng and Baosong Yang and Haoran Wei and Fei Huang and Bowen Yu and Junyang Lin and Fei Huang and Jingren Zhou}, year={2024}, eprint={2411.09116}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.09116}, }

Datum

vor 2 Jahren

Größe

12.72 MB

Organisation

Paper-URL

arxiv.org

Zitat

@misc{zhang2024pmmevalparallelmultilingualmultitask,
title={P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs},
author={Yidan Zhang and Yu Wan and Boyi Deng and Baosong Yang and Haoran Wei and Fei Huang and Bowen Yu and Junyang Lin and Fei Huang and Jingren Zhou},
year={2024},
eprint={2411.09116},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.09116},
}

P-MMEval.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 173Gesamtdownloads 241

P-MMEval/
- README.md
  1.48 KB
- README.txt
  2.97 KB

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden

Auf Discord diskutieren

Datum

vor 2 Jahren

Größe

12.72 MB

Organisation

Paper-URL

arxiv.org

Zitat

@misc{zhang2024pmmevalparallelmultilingualmultitask,
title={P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs},
author={Yidan Zhang and Yu Wan and Boyi Deng and Baosong Yang and Haoran Wei and Fei Huang and Bowen Yu and Junyang Lin and Fei Huang and Jingren Zhou},
year={2024},
eprint={2411.09116},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.09116},
}

P-MMEval.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 173Gesamtdownloads 241

P-MMEval/
- README.md
  1.48 KB
- README.txt
  2.97 KB

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

vor 9 Stunden

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

vor 5 Tagen

TACK Targeted Chimera Knowledge Base Dataset

vor 22 Tagen

SMOL Multilingual Translation Parallel Dataset

vor einem Monat

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

vor 13 Tagen

ViMU-Datensatz Zum Verständnis Von Videometaphern

vor einem Monat

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

vor einem Monat

Claw-Eval Real-World Benchmark Dataset

vor einem Monat

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

vor 8 Tagen

PanScale Remote Sensing Pancolor Sharpening Dataset

vor 2 Monaten

ParseBench-Dokumentparsing-Fähigkeitsbewertungsdatensatz

vor 2 Monaten

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

vor 8 Tagen

MDPBench Multilingual Document Parsing Benchmark Dataset

vor 8 Tagen

DRACO Cross-Domain Deep Research Benchmark-Datensatz

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

P-MMEval Mehrsprachiger Multitasking-Benchmark-Datensatz

Zitat

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

P-MMEval Mehrsprachiger Multitasking-Benchmark-Datensatz

Zitat

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

TACK Targeted Chimera Knowledge Base Dataset

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU-Datensatz Zum Verständnis Von Videometaphern

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

Claw-Eval Real-World Benchmark Dataset

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

PanScale Remote Sensing Pancolor Sharpening Dataset

ParseBench-Dokumentparsing-Fähigkeitsbewertungsdatensatz

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

MDPBench Multilingual Document Parsing Benchmark Dataset

DRACO Cross-Domain Deep Research Benchmark-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

P-MMEval Mehrsprachiger Multitasking-Benchmark-Datensatz

Zitat

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

TACK Targeted Chimera Knowledge Base Dataset

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU-Datensatz Zum Verständnis Von Videometaphern

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

Claw-Eval Real-World Benchmark Dataset

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

PanScale Remote Sensing Pancolor Sharpening Dataset

ParseBench-Dokumentparsing-Fähigkeitsbewertungsdatensatz

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

MDPBench Multilingual Document Parsing Benchmark Dataset

DRACO Cross-Domain Deep Research Benchmark-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

TACK Targeted Chimera Knowledge Base Dataset

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU-Datensatz Zum Verständnis Von Videometaphern

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

Claw-Eval Real-World Benchmark Dataset

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

PanScale Remote Sensing Pancolor Sharpening Dataset

ParseBench-Dokumentparsing-Fähigkeitsbewertungsdatensatz

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

MDPBench Multilingual Document Parsing Benchmark Dataset

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

TACK Targeted Chimera Knowledge Base Dataset

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU-Datensatz Zum Verständnis Von Videometaphern

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

Claw-Eval Real-World Benchmark Dataset

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

PanScale Remote Sensing Pancolor Sharpening Dataset

ParseBench-Dokumentparsing-Fähigkeitsbewertungsdatensatz

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

MDPBench Multilingual Document Parsing Benchmark Dataset

DRACO Cross-Domain Deep Research Benchmark-Datensatz