@inproceedings{zhao-etal-2025-makieval, title = "{MAKIE}val: A Multilingual Automatic {W}i{K}idata-based Framework for Cultural Awareness Evaluation for {LLM}s", author = "Zhao, Raoyuan and Chen, Beiduo and Plank, Barbara and Hedderich, Michael A.", editor = "Christodoulopoulos, Christos and Chakraborty, Tanmoy and Rose, Carolyn and Peng, Violet", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2025", month = nov, year = "2025", address = "Suzhou, China", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2025.findings-emnlp.1256/", doi = "10.18653/v1/2025.findings-emnlp.1256", pages = "23104--23136", ISBN = "979-8-89176-335-7", abstract = "Large language models (LLMs) are used globally across many languages, but their English-centric pretraining raises concerns about cross-lingual disparities for cultural awareness, often resulting in biased outputs. However, comprehensive multilingual evaluation remains challenging due to limited benchmarks and questionable translation quality. To better assess these disparities, we introduce MAKIEval, an automatic multilingual framework for evaluating cultural awareness in LLMs across languages, regions, and topics. MAKIEval evaluates open-ended text generation, capturing how models express culturally grounded knowledge in natural language. Leveraging Wikidata{'}s multilingual structure as a cross-lingual anchor, it automatically identifies cultural entities in model outputs and links them to structured knowledge, enabling scalable, language-agnostic evaluation without manual annotation or translation. We then introduce four metrics that capture complementary dimensions of cultural awareness: granularity, diversity, cultural specificity, and consensus across languages. We assess 7 LLMs developed from different parts of the world, encompassing both open-source and proprietary systems, across 13 languages, 19 countries and regions, and 6 culturally salient topics (e.g., food, clothing). Notably, we find that models tend to exhibit stronger cultural awareness in English, suggesting that English prompts more effectively activate culturally grounded knowledge. We publicly release our code and data." }

日付

1日前

Paper URL

2505.21693

ライセンス

CC BY 4.0

タグ

機械学習

ベンチマーク

MAKIEVALは、ミュンヘン大学のMaiNLP研究室がミュンヘン機械学習センター（MCML）と共同で2026年に公開した、多言語文化知識評価データセットです。関連する研究論文は以下のとおりです。 MAKIEVAL：法学修士課程における文化意識評価のための多言語対応自動Wikidataベースフレームワークこれは、大規模な言語モデルにおける大規模な多言語文化知識を評価するためのベンチマークを提供することを目的としており、多言語知識表現や文化知識モデリングに関する研究で広く利用されている。このデータセットには、13言語、19の国・地域、6つの文化領域における7つの大規模言語モデルによって生成されたテキストと、Wikidataに準拠した自動抽出された文化エンティティが含まれています。

データセットの構成

7つの主要な言語モデル：Llama-3.1-8B-Instruct、Llama-3.3-70B-Instruct、Mistral-7B-Instruct-v0.1、Qwen2.5-7B-Instruct、DeepSeek-V3、ChatGPT-4o-mini、およびAya-Expanse-8B。
13言語：アラビア語、ドイツ語、英語、スペイン語、ペルシア語、ヒンディー語、イタリア語、日本語、韓国語、タイ語、トルコ語、簡体字中国語、繁体字中国語
19の国・地域：アラブ首長国連邦、アメリカ合衆国、イギリス、カナダ、オーストラリア、ナイジェリア、ドイツ、スペイン、メキシコ、アルゼンチン、イラン、インド、イタリア、日本、韓国、タイ、トルコ、中国、台湾。
文化分野は6つ：食、飲料、衣料、書籍、音楽、交通機関。

引用

@inproceedings{zhao-etal-2025-makieval,
title = "{MAKIE}val: A Multilingual Automatic {W}i{K}idata-based Framework for Cultural Awareness Evaluation for {LLM}s",
author = "Zhao, Raoyuan  and
Chen, Beiduo  and
Plank, Barbara  and
Hedderich, Michael A.",
editor = "Christodoulopoulos, Christos  and
Chakraborty, Tanmoy  and
Rose, Carolyn  and
Peng, Violet",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2025",
month = nov,
year = "2025",
address = "Suzhou, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2025.findings-emnlp.1256/",
doi = "10.18653/v1/2025.findings-emnlp.1256",
pages = "23104--23136",
ISBN = "979-8-89176-335-7",
abstract = "Large language models (LLMs) are used globally across many languages, but their English-centric pretraining raises concerns about cross-lingual disparities for cultural awareness, often resulting in biased outputs. However, comprehensive multilingual evaluation remains challenging due to limited benchmarks and questionable translation quality. To better assess these disparities, we introduce MAKIEval, an automatic multilingual framework for evaluating cultural awareness in LLMs across languages, regions, and topics. MAKIEval evaluates open-ended text generation, capturing how models express culturally grounded knowledge in natural language. Leveraging Wikidata{'}s multilingual structure as a cross-lingual anchor, it automatically identifies cultural entities in model outputs and links them to structured knowledge, enabling scalable, language-agnostic evaluation without manual annotation or translation. We then introduce four metrics that capture complementary dimensions of cultural awareness: granularity, diversity, cultural specificity, and consensus across languages. We assess 7 LLMs developed from different parts of the world, encompassing both open-source and proprietary systems, across 13 languages, 19 countries and regions, and 6 culturally salient topics (e.g., food, clothing). Notably, we find that models tend to exhibit stronger cultural awareness in English, suggesting that English prompts more effectively activate culturally grounded knowledge. We publicly release our code and data."
}

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

MAKIEVAL 多言語文化知識評価データセット

データセットの構成

引用

AIでAIを構築

HyperAI Newsletters

Command Palette

MAKIEVAL 多言語文化知識評価データセット

データセットの構成

引用

関連データセット

TACKターゲットキメラ知識ベースデータセット

SMOL多言語翻訳並列データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

世界の地震データ（マグニチュード4.5以上）：世界中で発生したマグニチュード4.5以上の地震のデータセット。

Claw-Eval実世界ベンチマークデータセット

QCalEval 量子較正グラフの理解データセット

MDPBench 多言語文書解析ベンチマークデータセット

CHOCLO ラテンアメリカ文化ベンチマークデータセット

AIでAIを構築

HyperAI Newsletters

Command Palette

MAKIEVAL 多言語文化知識評価データセット

データセットの構成

引用

関連データセット

TACKターゲットキメラ知識ベースデータセット

SMOL多言語翻訳並列データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

世界の地震データ（マグニチュード4.5以上）：世界中で発生したマグニチュード4.5以上の地震のデータセット。

Claw-Eval実世界ベンチマークデータセット

QCalEval 量子較正グラフの理解データセット

MDPBench 多言語文書解析ベンチマークデータセット

CHOCLO ラテンアメリカ文化ベンチマークデータセット

AIでAIを構築

HyperAI Newsletters

関連データセット

TACKターゲットキメラ知識ベースデータセット

SMOL多言語翻訳並列データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

世界の地震データ（マグニチュード4.5以上）：世界中で発生したマグニチュード4.5以上の地震のデータセット。

Claw-Eval実世界ベンチマークデータセット

QCalEval 量子較正グラフの理解データセット

MDPBench 多言語文書解析ベンチマークデータセット

CHOCLO ラテンアメリカ文化ベンチマークデータセット

関連データセット

TACKターゲットキメラ知識ベースデータセット

SMOL多言語翻訳並列データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

世界の地震データ（マグニチュード4.5以上）：世界中で発生したマグニチュード4.5以上の地震のデータセット。

Claw-Eval実世界ベンチマークデータセット

QCalEval 量子較正グラフの理解データセット

MDPBench 多言語文書解析ベンチマークデータセット

CHOCLO ラテンアメリカ文化ベンチマークデータセット