@inproceedings{moroni-etal-2025-multi, title = "Multi-{LM}entry: Can Multilingual {LLM}s Solve Elementary Tasks Across Languages?", author = "Moroni, Luca and Aula-Blasco, Javier and Conia, Simone and Baucells, Irene and Perez, Naiara and Su{\'a}rez, Silvia Paniagua and Sall{\'e}s, Anna and Ostendorff, Malte and Falc{\~a}o, J{\'u}lia and Son, Guijin and Gonzalez-Agirre, Aitor and Navigli, Roberto and Villegas, Marta", editor = "Christodoulopoulos, Christos and Chakraborty, Tanmoy and Rose, Carolyn and Peng, Violet", booktitle = "Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2025", address = "Suzhou, China", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2025.emnlp-main.1731/", doi = "10.18653/v1/2025.emnlp-main.1731", pages = "34114--34145", ISBN = "979-8-89176-332-6" }

日期

8 个月前

许可证

CC BY-SA 4.0

标签

自然语言处理

Multi-LMentry 是于 2025 年发布的一个多语言评测基准数据集，旨在系统评估大型语言模型（LLMs）在多语言环境下对低层次语言理解与基础推理任务的跨语言泛化能力。该数据集涵盖九种语言：英语、加泰罗尼亚语、德语、西班牙语、巴斯克语、加利西亚语、韩语、意大利语和巴西葡萄牙语。任务由母语使用者手动重新设计，形式与原始 LMentry 框架相似，但并非直接翻译，以确保语言与文化的自然性和适配性。

数据集结构

该数据集按语言分文件夹组织。
在每个语言文件夹中，每个任务对应一个 JSON 文件。
每个 JSON 文件包含该任务的输入提示和预期输出。
任务类型包括简单句子构造、语境词汇选择、字母推理等。
部分任务具有语言特定性，例如在不适用的语言中排除了押韵词任务。

Citation

@inproceedings{moroni-etal-2025-multi,
title = "Multi-{LM}entry: Can Multilingual {LLM}s Solve Elementary Tasks Across Languages?",
author = "Moroni, Luca  and
Aula-Blasco, Javier  and
Conia, Simone  and
Baucells, Irene  and
Perez, Naiara  and
Su{\'a}rez, Silvia Paniagua  and
Sall{\'e}s, Anna  and
Ostendorff, Malte  and
Falc{\~a}o, J{\'u}lia  and
Son, Guijin  and
Gonzalez-Agirre, Aitor  and
Navigli, Roberto  and
Villegas, Marta",
editor = "Christodoulopoulos, Christos  and
Chakraborty, Tanmoy  and
Rose, Carolyn  and
Peng, Violet",
booktitle = "Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2025",
address = "Suzhou, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2025.emnlp-main.1731/",
doi = "10.18653/v1/2025.emnlp-main.1731",
pages = "34114--34145",
ISBN = "979-8-89176-332-6"
}

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

在 Discord 上讨论

日期

8 个月前

许可证

CC BY-SA 4.0

标签

自然语言处理

数据集结构

该数据集按语言分文件夹组织。
在每个语言文件夹中，每个任务对应一个 JSON 文件。
每个 JSON 文件包含该任务的输入提示和预期输出。
任务类型包括简单句子构造、语境词汇选择、字母推理等。
部分任务具有语言特定性，例如在不适用的语言中排除了押韵词任务。

Citation

@inproceedings{moroni-etal-2025-multi,
title = "Multi-{LM}entry: Can Multilingual {LLM}s Solve Elementary Tasks Across Languages?",
author = "Moroni, Luca  and
Aula-Blasco, Javier  and
Conia, Simone  and
Baucells, Irene  and
Perez, Naiara  and
Su{\'a}rez, Silvia Paniagua  and
Sall{\'e}s, Anna  and
Ostendorff, Malte  and
Falc{\~a}o, J{\'u}lia  and
Son, Guijin  and
Gonzalez-Agirre, Aitor  and
Navigli, Roberto  and
Villegas, Marta",
editor = "Christodoulopoulos, Christos  and
Chakraborty, Tanmoy  and
Rose, Carolyn  and
Peng, Violet",
booktitle = "Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2025",
address = "Suzhou, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2025.emnlp-main.1731/",
doi = "10.18653/v1/2025.emnlp-main.1731",
pages = "34114--34145",
ISBN = "979-8-89176-332-6"
}

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

MAKIEVAL 多语言文化知识评估数据集

3 小时前

RHELM 长程记忆评估数据集

1 天前

Noisy Medical Document 含噪医疗文档图像数据集

1 天前

OpenSAL360 全景视频显著性数据集

18 天前

EAVSD 电商广告视频分镜数据集

18 天前

SMOL 多语言翻译平行数据集

19 天前

Medical Waste 医疗废弃物检测数据集

1 个月前

Breast Cancer：Multi-Modal Fusion 乳腺癌多模态融合数据集

1 个月前

MDPBench 多语言文档解析基准数据集

1 天前

DRACO 跨领域深度研究基准数据集

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Multi-LMentry 多语言基础任务基准数据集

数据集结构

Citation

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Multi-LMentry 多语言基础任务基准数据集

数据集结构

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

RHELM 长程记忆评估数据集

Noisy Medical Document 含噪医疗文档图像数据集

OpenSAL360 全景视频显著性数据集

EAVSD 电商广告视频分镜数据集

SMOL 多语言翻译平行数据集

Medical Waste 医疗废弃物检测数据集

Breast Cancer：Multi-Modal Fusion 乳腺癌多模态融合数据集

MDPBench 多语言文档解析基准数据集

DRACO 跨领域深度研究基准数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Multi-LMentry 多语言基础任务基准数据集

数据集结构

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

RHELM 长程记忆评估数据集

Noisy Medical Document 含噪医疗文档图像数据集

OpenSAL360 全景视频显著性数据集

EAVSD 电商广告视频分镜数据集

SMOL 多语言翻译平行数据集

Medical Waste 医疗废弃物检测数据集

Breast Cancer：Multi-Modal Fusion 乳腺癌多模态融合数据集

MDPBench 多语言文档解析基准数据集

DRACO 跨领域深度研究基准数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

MAKIEVAL 多语言文化知识评估数据集

RHELM 长程记忆评估数据集

Noisy Medical Document 含噪医疗文档图像数据集

OpenSAL360 全景视频显著性数据集

EAVSD 电商广告视频分镜数据集

SMOL 多语言翻译平行数据集

Medical Waste 医疗废弃物检测数据集

Breast Cancer：Multi-Modal Fusion 乳腺癌多模态融合数据集

MDPBench 多语言文档解析基准数据集

DRACO 跨领域深度研究基准数据集

相关数据集

MAKIEVAL 多语言文化知识评估数据集

RHELM 长程记忆评估数据集

Noisy Medical Document 含噪医疗文档图像数据集

OpenSAL360 全景视频显著性数据集

EAVSD 电商广告视频分镜数据集

SMOL 多语言翻译平行数据集

Medical Waste 医疗废弃物检测数据集

Breast Cancer：Multi-Modal Fusion 乳腺癌多模态融合数据集

MDPBench 多语言文档解析基准数据集

DRACO 跨领域深度研究基准数据集