Command Palette
Search for a command to run...
MAKIEVAL 多言語文化知識評価データセット
MAKIEVALは、ミュンヘン大学のMaiNLP研究室がミュンヘン機械学習センター(MCML)と共同で2026年に公開した、多言語文化知識評価データセットです。関連する研究論文は以下のとおりです。 MAKIEVAL:法学修士課程における文化意識評価のための多言語対応自動Wikidataベースフレームワークこれは、大規模な言語モデルにおける大規模な多言語文化知識を評価するためのベンチマークを提供することを目的としており、多言語知識表現や文化知識モデリングに関する研究で広く利用されている。 このデータセットには、13言語、19の国・地域、6つの文化領域における7つの大規模言語モデルによって生成されたテキストと、Wikidataに準拠した自動抽出された文化エンティティが含まれています。
データセットの構成
- 7つの主要な言語モデル:Llama-3.1-8B-Instruct、Llama-3.3-70B-Instruct、Mistral-7B-Instruct-v0.1、Qwen2.5-7B-Instruct、DeepSeek-V3、ChatGPT-4o-mini、およびAya-Expanse-8B。
- 13言語:アラビア語、ドイツ語、英語、スペイン語、ペルシア語、ヒンディー語、イタリア語、日本語、韓国語、タイ語、トルコ語、簡体字中国語、繁体字中国語
- 19の国・地域:アラブ首長国連邦、アメリカ合衆国、イギリス、カナダ、オーストラリア、ナイジェリア、ドイツ、スペイン、メキシコ、アルゼンチン、イラン、インド、イタリア、日本、韓国、タイ、トルコ、中国、台湾。
- 文化分野は6つ:食、飲料、衣料、書籍、音楽、交通機関。
引用
@inproceedings{zhao-etal-2025-makieval,
title = "{MAKIE}val: A Multilingual Automatic {W}i{K}idata-based Framework for Cultural Awareness Evaluation for {LLM}s",
author = "Zhao, Raoyuan and
Chen, Beiduo and
Plank, Barbara and
Hedderich, Michael A.",
editor = "Christodoulopoulos, Christos and
Chakraborty, Tanmoy and
Rose, Carolyn and
Peng, Violet",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2025",
month = nov,
year = "2025",
address = "Suzhou, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2025.findings-emnlp.1256/",
doi = "10.18653/v1/2025.findings-emnlp.1256",
pages = "23104--23136",
ISBN = "979-8-89176-335-7",
abstract = "Large language models (LLMs) are used globally across many languages, but their English-centric pretraining raises concerns about cross-lingual disparities for cultural awareness, often resulting in biased outputs. However, comprehensive multilingual evaluation remains challenging due to limited benchmarks and questionable translation quality. To better assess these disparities, we introduce MAKIEval, an automatic multilingual framework for evaluating cultural awareness in LLMs across languages, regions, and topics. MAKIEval evaluates open-ended text generation, capturing how models express culturally grounded knowledge in natural language. Leveraging Wikidata{'}s multilingual structure as a cross-lingual anchor, it automatically identifies cultural entities in model outputs and links them to structured knowledge, enabling scalable, language-agnostic evaluation without manual annotation or translation. We then introduce four metrics that capture complementary dimensions of cultural awareness: granularity, diversity, cultural specificity, and consensus across languages. We assess 7 LLMs developed from different parts of the world, encompassing both open-source and proprietary systems, across 13 languages, 19 countries and regions, and 6 culturally salient topics (e.g., food, clothing). Notably, we find that models tend to exhibit stronger cultural awareness in English, suggesting that English prompts more effectively activate culturally grounded knowledge. We publicly release our code and data."
}