@inproceedings{moroni-etal-2025-multi, title = "Multi-{LM}entry: Can Multilingual {LLM}s Solve Elementary Tasks Across Languages?", author = "Moroni, Luca and Aula-Blasco, Javier and Conia, Simone and Baucells, Irene and Perez, Naiara and Su{\'a}rez, Silvia Paniagua and Sall{\'e}s, Anna and Ostendorff, Malte and Falc{\~a}o, J{\'u}lia and Son, Guijin and Gonzalez-Agirre, Aitor and Navigli, Roberto and Villegas, Marta", editor = "Christodoulopoulos, Christos and Chakraborty, Tanmoy and Rose, Carolyn and Peng, Violet", booktitle = "Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2025", address = "Suzhou, China", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2025.emnlp-main.1731/", doi = "10.18653/v1/2025.emnlp-main.1731", pages = "34114--34145", ISBN = "979-8-89176-332-6" }

日付

8ヶ月前

ライセンス

CC BY-SA 4.0

タグ

自然言語処理

Multi-LMentry は、2025 年にリリースされた多言語ベンチマークデータセットであり、多言語環境における低レベル言語理解および基本推論タスクのための大規模言語モデル (LLM) の言語間一般化能力を体系的に評価するように設計されています。このデータセットは、英語、カタロニア語、ドイツ語、スペイン語、バスク語、ガリシア語、韓国語、イタリア語、ブラジル系ポルトガル語の9つの言語をカバーしています。タスクはネイティブスピーカーによって手動で再設計され、元のLMentryフレームワークに似た形式ですが、自然さと文化的な適合性を確保するため、直接的な翻訳ではありません。

データセットの構造

データセットは言語ごとにフォルダーに整理されています。
各言語フォルダーでは、各タスクが JSON ファイルに対応しています。
各 JSON ファイルには、タスクの入力ヒントと予想される出力が含まれています。
タスクの種類には、簡単な文の構成、文脈上の語彙の選択、文字の推論などがあります。
一部のタスクは言語に固有です。たとえば、韻を踏むタスクは、該当しない言語では除外されます。

引用

@inproceedings{moroni-etal-2025-multi,
title = "Multi-{LM}entry: Can Multilingual {LLM}s Solve Elementary Tasks Across Languages?",
author = "Moroni, Luca  and
Aula-Blasco, Javier  and
Conia, Simone  and
Baucells, Irene  and
Perez, Naiara  and
Su{\'a}rez, Silvia Paniagua  and
Sall{\'e}s, Anna  and
Ostendorff, Malte  and
Falc{\~a}o, J{\'u}lia  and
Son, Guijin  and
Gonzalez-Agirre, Aitor  and
Navigli, Roberto  and
Villegas, Marta",
editor = "Christodoulopoulos, Christos  and
Chakraborty, Tanmoy  and
Rose, Carolyn  and
Peng, Violet",
booktitle = "Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2025",
address = "Suzhou, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2025.emnlp-main.1731/",
doi = "10.18653/v1/2025.emnlp-main.1731",
pages = "34114--34145",
ISBN = "979-8-89176-332-6"
}

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

マルチLエントリ多言語基本タスクベンチマークデータセット

データセットの構造

引用

AIでAIを構築

HyperAI Newsletters

Command Palette

マルチLエントリ多言語基本タスクベンチマークデータセット

データセットの構造

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

RHELM長期記憶評価データセット

ノイズの多い医療文書画像データセット

OpenSAL360パノラマビデオ顕著性データセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

SMOL多言語翻訳並列データセット

医療廃棄物検出データセット

乳がん：マルチモーダル融合データセット

MDPBench 多言語文書解析ベンチマークデータセット

DRACOクロスドメイン深層研究ベンチマークデータセット

AIでAIを構築

HyperAI Newsletters

Command Palette

マルチLエントリ多言語基本タスクベンチマークデータセット

データセットの構造

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

RHELM長期記憶評価データセット

ノイズの多い医療文書画像データセット

OpenSAL360パノラマビデオ顕著性データセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

SMOL多言語翻訳並列データセット

医療廃棄物検出データセット

乳がん：マルチモーダル融合データセット

MDPBench 多言語文書解析ベンチマークデータセット

DRACOクロスドメイン深層研究ベンチマークデータセット

AIでAIを構築

HyperAI Newsletters

関連データセット

MAKIEVAL 多言語文化知識評価データセット

RHELM長期記憶評価データセット

ノイズの多い医療文書画像データセット

OpenSAL360パノラマビデオ顕著性データセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

SMOL多言語翻訳並列データセット

医療廃棄物検出データセット

乳がん：マルチモーダル融合データセット

MDPBench 多言語文書解析ベンチマークデータセット

DRACOクロスドメイン深層研究ベンチマークデータセット

関連データセット

MAKIEVAL 多言語文化知識評価データセット

RHELM長期記憶評価データセット

ノイズの多い医療文書画像データセット

OpenSAL360パノラマビデオ顕著性データセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

SMOL多言語翻訳並列データセット

医療廃棄物検出データセット

乳がん：マルチモーダル融合データセット

MDPBench 多言語文書解析ベンチマークデータセット

DRACOクロスドメイン深層研究ベンチマークデータセット