HyperAIHyperAI

Command Palette

Search for a command to run...

Console

PolyMath 多语言数学推理基准数据集

日期

2 天前

机构

Shanghai Jiao Tong University

论文链接

2504.18428

PolyMath 是由阿里巴巴千问团队联合上海交通大学于 2025 年发布的一个多语言数学推理评测数据集,相关论文成果为「PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts」,并已入选 NeurIPS 2025 Datasets and Benchmarks,旨在系统评估大语言模型在多语种条件下的数学理解、推理深度与跨语言一致性表现。

该数据集包含 500 道高质量的数学推理题,每个难度级别提供 125 道题,覆盖 18 种语言与 4 个难度等级,其中 18 种平行语种版本兼顾高资源与低资源语言,覆盖全球超过 75% 的母语人口;难度范围从基础的 K–12 数学延伸至奥林匹克与前沿数学领域,从而构建了一个高质量、多维度、强辨识度的数学推理评测体系。

数据集分布:

  • 题目数量与分布:每种语言在各难度级均提供 125 道题目,形成均衡的难度组成。
  • 难度划分标准:根据「思维深度(Thought Depth)」与「知识广度(Knowledge Breadth)」进行四级划分:
    • Level 1:基础(K–12)
    • Level 2:进阶(高中到高年级)
    • Level 3:高难(奥赛级别)
    • Level 4:前沿(高等数学与研究级推理)

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PolyMath 多语言数学推理基准数据集 | 数据集 | HyperAI超神经