PolyMath 多语言数学推理基准数据集
PolyMath 是由阿里巴巴千问团队联合上海交通大学于 2025 年发布的一个多语言数学推理评测数据集,相关论文成果为「PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts」,并已入选 NeurIPS 2025 Datasets and Benchmarks,旨在系统评估大语言模型在多语种条件下的数学理解、推理深度与跨语言一致性表现。
该数据集包含 500 道高质量的数学推理题,每个难度级别提供 125 道题,覆盖 18 种语言与 4 个难度等级,其中 18 种平行语种版本兼顾高资源与低资源语言,覆盖全球超过 75% 的母语人口;难度范围从基础的 K–12 数学延伸至奥林匹克与前沿数学领域,从而构建了一个高质量、多维度、强辨识度的数学推理评测体系。
数据集分布:
- 题目数量与分布:每种语言在各难度级均提供 125 道题目,形成均衡的难度组成。
- 难度划分标准:根据「思维深度(Thought Depth)」与「知识广度(Knowledge Breadth)」进行四级划分:
- Level 1:基础(K–12)
- Level 2:进阶(高中到高年级)
- Level 3:高难(奥赛级别)
- Level 4:前沿(高等数学与研究级推理)