@misc{zhang2024pmmevalparallelmultilingualmultitask, title={P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs}, author={Yidan Zhang and Yu Wan and Boyi Deng and Baosong Yang and Haoran Wei and Fei Huang and Bowen Yu and Junyang Lin and Fei Huang and Jingren Zhou}, year={2024}, eprint={2411.09116}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.09116}, }

日付

2年前

サイズ

12.72 MB

データセット構成

論文URL

arxiv.org

タグ

ベンチマーク

P-MMEval データセットは、大規模言語モデル (LLM) の多言語機能を包括的に評価することを目的として、2024 年に Alibaba Group Tongyi Lab によって作成された大規模な多言語マルチタスクベンチマークデータセットです。関連する論文結果は「P-MMEVAL: LLM の一貫した評価のための並列多言語マルチタスクベンチマーク」このデータセットには、3 つの基本的な自然言語処理 (NLP) データセットと 5 つの高度な機能固有のデータセットが含まれており、コード生成、知識理解、数学的推論、論理的推論、命令追従などのタスクをカバーします。 P-MMEval は専門家による翻訳レビューを通じて、10 言語にわたって一貫した対応を保証し、言語間での並行サンプルを提供します。これらの言語には、英語、中国語、アラビア語、スペイン語、日本語、韓国語、タイ語、フランス語、ポルトガル語、ベトナム語が含まれます。

引用

@misc{zhang2024pmmevalparallelmultilingualmultitask,
title={P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs},
author={Yidan Zhang and Yu Wan and Boyi Deng and Baosong Yang and Haoran Wei and Fei Huang and Bowen Yu and Junyang Lin and Fei Huang and Jingren Zhou},
year={2024},
eprint={2411.09116},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.09116},
}

P-MMEval.torrent

シーディング 1ダウンロード中 0完了 173総ダウンロード数 241

P-MMEval/
- README.md
  1.48 KB
- README.txt
  2.97 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用

Discordで議論

日付

2年前

サイズ

12.72 MB

データセット構成

論文URL

arxiv.org

タグ

ベンチマーク

引用

@misc{zhang2024pmmevalparallelmultilingualmultitask,
title={P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs},
author={Yidan Zhang and Yu Wan and Boyi Deng and Baosong Yang and Haoran Wei and Fei Huang and Bowen Yu and Junyang Lin and Fei Huang and Jingren Zhou},
year={2024},
eprint={2411.09116},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.09116},
}

P-MMEval.torrent

シーディング 1ダウンロード中 0完了 173総ダウンロード数 241

P-MMEval/
- README.md
  1.48 KB
- README.txt
  2.97 KB

MAKIEVAL 多言語文化知識評価データセット

10時間前

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

5日前

TACKターゲットキメラ知識ベースデータセット

22日前

SMOL多言語翻訳並列データセット

1ヶ月前

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

13日前

ViMUビデオメタファー理解データセット

1ヶ月前

MathNetマルチモーダル数学ベンチマーク推論データセット

1ヶ月前

Claw-Eval実世界ベンチマークデータセット

1ヶ月前

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

8日前

PanScaleリモートセンシングPancolorシャープニングデータセット

2ヶ月前

ParseBench文書解析能力評価データセット

2ヶ月前

OmniParsingBench マルチモーダル構文解析機能評価データセット

8日前

MDPBench 多言語文書解析ベンチマークデータセット

8日前

DRACOクロスドメイン深層研究ベンチマークデータセット

2ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

P-MMEval 多言語マルチタスク ベンチマーク データセット

引用

AIでAIを構築

HyperAI Newsletters

Command Palette

P-MMEval 多言語マルチタスク ベンチマーク データセット

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

TACKターゲットキメラ知識ベースデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

PanScaleリモートセンシングPancolorシャープニングデータセット

ParseBench文書解析能力評価データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

DRACOクロスドメイン深層研究ベンチマークデータセット

AIでAIを構築

HyperAI Newsletters

Command Palette

P-MMEval 多言語マルチタスク ベンチマーク データセット

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

TACKターゲットキメラ知識ベースデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

PanScaleリモートセンシングPancolorシャープニングデータセット

ParseBench文書解析能力評価データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

DRACOクロスドメイン深層研究ベンチマークデータセット

AIでAIを構築

HyperAI Newsletters

関連データセット

MAKIEVAL 多言語文化知識評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

TACKターゲットキメラ知識ベースデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

PanScaleリモートセンシングPancolorシャープニングデータセット

ParseBench文書解析能力評価データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

DRACOクロスドメイン深層研究ベンチマークデータセット

関連データセット

MAKIEVAL 多言語文化知識評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

TACKターゲットキメラ知識ベースデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

PanScaleリモートセンシングPancolorシャープニングデータセット

ParseBench文書解析能力評価データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

DRACOクロスドメイン深層研究ベンチマークデータセット

P-MMEval 多言語マルチタスクベンチマークデータセット

P-MMEval 多言語マルチタスクベンチマークデータセット

P-MMEval 多言語マルチタスクベンチマークデータセット