HyperAIHyperAI

Command Palette

Search for a command to run...

MathNet:面向数学推理与检索的全局多模态基准测试

Shaden Alshammari Kevin Wen Abrar Zainal Mark Hamilton Navid Safaei Sultan Albarakati William T. Freeman Antonio Torralba

摘要

数学推理仍是检验大型语言模型(LLM)及多模态模型推理能力的一大挑战,然而现有的基准测试数据集在规模、语言覆盖范围及任务多样性方面均存在局限。为此,我们推出了 MATHNET,这是一个高质量、大规模、多模态且多语言的奥林匹克级别数学问题数据集,并配套建立了用于评估生成式模型数学推理能力及基于嵌入(embedding)系统的数学检索能力的基准测试框架。MATHNET 涵盖了来自47个国家的17种语言、历时二十年的各类竞赛试题,包含由专家编纂的30,676道带有解答的数学问题,涉及广泛的知识领域。除核心数据集外,我们还构建了一个由人类专家精心策划的检索基准测试,其中包含数学等价且结构相似的问题对。MATHNET 支持以下三项任务:(i) 问题求解(Problem Solving),(ii) 数学感知检索(Math-Aware Retrieval),以及 (iii) 检索增强问题求解(Retrieval-Augmented Problem Solving)。实验结果表明,即使是当前最先进的推理模型(Gemini-3.1-Pro 准确率达 78.4%,GPT-5 达 69.3%)仍面临严峻挑战,而嵌入模型(embedding models)在检索等价问题方面表现不佳。我们进一步发现,检索增强生成(RAG)的性能对检索质量高度敏感;例如,DeepSeek-V3.2-Speciale 凭借提升高达 12% 的性能取得了该基准测试的最高分数。

一句话总结

作者介绍了 MATHNET,一个包含 30,676 个专家编写的奥林匹克级别问题的全球多模态基准,涵盖 17 种语言、47 个国家和两个十年的比赛,旨在通过人工策划的数学等价和结构相似的问题对来评估数学推理和检索能力。结果显示,像 Gemini-3.1-Pro 和 GPT-5 这样的最先进模型分别达到了 78.4% 和 69.3%,而 RAG 性能对检索质量高度敏感,正如 DeepSeek-V3.2-Speciale 所展示的,提升幅度高达 12%。

核心贡献

  • 论文介绍了 MATHNET,一个包含 30,676 个专家编写的奥林匹克级别数学问题的大型多模态和多语言数据集,涵盖 47 个国家和 17 种语言。该资源通过涵盖两个十年的比赛和多样的数学领域,解决了现有基准的局限性。
  • 在核心数据集之外构建了一个检索基准,使用人工策划的数学等价和结构相似的问题对。该框架支持三种评估任务,包括问题解决、数学感知检索和检索增强问题解决。
  • 实验结果表明,最先进推理模型仍受到该基准的挑战,顶级表现者的得分约为 78.4%。研究进一步证明,检索增强生成性能对检索质量高度敏感,特定模型的增益高达 12%。

引言

鲁棒的数学推理对于推进人工智能至关重要,然而当前的评估标准往往缺乏全球多样性和多模态深度。现有基准经常依赖于有限的语言集或比赛类型,这阻碍了对模型在不同教育背景下性能的评估。为了填补这一空白,作者展示了 MathNet,一个全面的全局多模态基准,包含来自奥林匹克比赛的超过 30,000 个问题。该数据集跨越 40 年,涵盖来自 47 个国家和 17 种语言的 143 场比赛,并提供专家解决方案,以促进对问题解决和数学检索能力的严格测试。

数据集

作者介绍了 MATHNET,一个高质量的多模态和多语言数据集,旨在评估生成式模型中的数学推理和检索能力。

数据集构成与来源

  • 核心语料库 MathNet-Solve 包含 30,676 个带有解决方案的专家编写奥林匹克级别问题。
  • 数据源自 1,595 个官方 PDF 卷,时间跨度为 1985 年至 2025 年,涵盖 47 个国家、17 种语言和 143 场比赛。
  • 与之前的基准不同,作者排除了社区来源的平台,以确保专家级别的质量和一致性。

子集详情

  • MathNet-Solve: 分为 23,776 个样本的训练集、6,400 个样本的测试集和 500 个样本的困难测试集。
  • MathNet-Retrieve: 基于核心集中的 10,000 个锚点问题构建。每个锚点配对 1 个数学等价正样本和 3 个由 GPT-5 生成的困难负样本,总计 40,000 个合成问题。
  • MathNet-RAG: 由 70 个真实问题组成,组织成 35 对专家策划的问题对,表现出结构共振,用于检索增强问题解决。

处理与标注

  • 作者使用 dots-ocr 框架将源手册转换为 Markdown,以处理包括扫描文档在内的多种格式。
  • 一种新颖的基于 LLM 的流水线对文档进行分割,并使用 Gemini-2.5-Flash 和 GPT-4.1 对齐问题 - 解决方案对。
  • 元数据构建包括记录问题作者、提示、备注以及来源文件和页码等来源信息。
  • 验证涉及三阶段过程,结合基于规则的解析检查、GPT-4.1 截图比较以及对低置信度案例的人工审查。

模型使用

  • 生成式模型在 MathNet-Solve 训练集上进行训练,并在测试集上评估问题解决准确率。
  • 嵌入模型在 MathNet-Retrieve 上使用 Recall@k 进行评估,以评估数学感知检索能力。
  • 检索增强生成系统在 MathNet-RAG 上进行测试,以衡量从检索结构相似问题中获得的性能提升。

方法

作者介绍了 MathNet,一个旨在通过结构化的数据、解决方案和基准生态系统来支持大规模多语言数学推理的框架。如概览图所示,该系统整合了来自 40 多个国家、跨越四个十年的 30,000 多个奥林匹克级别问题。

为了确保该大规模数据集的完整性,作者采用了多阶段处理流水线。具体工作流请参阅下方的框架图。

PDF 格式的输入手册首先通过 DotsOCR 进行文本提取处理。提取的文本经过文档分割以分离问题和解决方案块。结构解析模块执行边界检测并将问题与其对应的解决方案对齐。随后的格式规范化由 GPT-4.1 处理。流水线包括稳健的质量控制措施,如来源一致性检查、交叉验证、去重和语义元数据提取,最终以人工验证结束,生成最终策划的数据集。语义元数据提取模块使用分类法对问题关系进行分类,区分三种相似性模式:不变性(Invariance),指变换下的严格等价;共振(Resonance),表示证明策略的部分相似;以及亲和性(Affinity),表示广泛的主题相关性。

数据集包含多样的数学主题,组织成包含 68 种问题类型的本体,包括几何、代数、离散数学和数论。它包含由人类专家编写的详细多模态解决方案。以下图展示了数据集中包含的几何问题示例。

该框架支持广泛的基准测试,评估三种特定任务:数学理解、问题检索和数学 RAG。这些评估利用 LLM、MLLM 和嵌入模型来评估收集数据上的性能。

实验

该评估涵盖了三个基准测试,包括问题解决、数学感知检索和检索增强问题解决,共评估了 27 个模型。前沿推理模型在代数方面取得了高准确率,但在几何和离散数学方面存在困难,表明即使是最新系统,奥林匹克级别的推理仍然具有挑战性。此外,检索性能受限于嵌入模型无法捕捉深层结构关系,这导致在检索增强设置中增益不一致,除非使用专家配对上下文。

该实验使用各种大型语言和多模态模型评估了四个数学领域的问题解决准确率。结果表明,具有显式推理能力的模型始终优于没有该能力的模型,特别是在 LMM with reasoning 类别中。性能趋势表明,代数是最易访问的领域,而几何和离散数学对所有系统来说都明显更难。具有推理能力的 LMM 实现了最高的整体准确率,由 gemini-3.1-pro-preview 模型领先。在所有模型组中,代数始终比几何和离散数学产生更高的成功率。前沿推理模型与较小或非推理基线之间存在巨大的性能差距。

该表比较了模型在 MathNet-RAG 上在 Zero-shot、Embed-RAG 和 Expert-RAG 设置下的准确率,使用 LLM 和人工评分。Expert-RAG 通常提供最强的性能,特别是对于顶级模型,而 Embed-RAG 与 Zero-shot 基线相比产生不一致的增益。Expert-RAG 通常为 DeepSeek-V3.2-Speciale 和 GPT-5 等顶级模型产生最佳性能,超过 Zero-shot 和 Embed-RAG 设置。Embed-RAG 显示出不一致的益处,对于 Grok-4.1-fast 和 olmo-3-32b-think 等某些模型,可能导致比 Zero-shot 更低的准确率。人工专家和 LLM 评分结果一致地确定 Expert-RAG 是大多数模型的优越设置,尽管绝对分数存在一些差异。

作者在 MathNet-Solve-Test 基准上评估了一组多样的大型语言和多模态模型,以评估问题解决准确率。结果表明存在明显的性能分层,其中前沿推理模型大幅优于中层和较弱基线。此外,数据表明,与仅文本输入相比,提供多模态输入通常会提高顶级系统的准确率。前沿推理模型比更小或更早的模型系列实现了显著更高的准确率。对于排名靠前的模型,多模态输入始终比仅文本输入产生更好的结果。评估中最高分和最低分模型之间存在巨大的性能差距。

作者在 MathNet-RAG 基准上使用三种推理设置评估检索增强问题解决:Zero Shot、Embed-RAG 和 Expert-RAG。结果表明,Expert-RAG 通常提供最强的性能,特别是在人工评分下,尽管改进并非在所有模型中都是统一的。虽然某些模型从专家检索的上下文中受益显著,但其他模型显示混合结果或在标准 Zero-shot 提示下表现更好。Expert-RAG 通常实现最佳性能,DeepSeek-V3.2-Speciale 在人工评分下达到最高结果。GPT-5 在从 Zero Shot 切换到 Expert-RAG 时表现出显著的性能提升。Embed-RAG 不如 Expert-RAG 可靠,有时在 LLM 评分下会导致比 Zero Shot 更低的准确率。

作者在 MathNet-Solve-Test 基准上评估了多个大型语言模型,测量了各种语言的问题解决准确率。结果显示了一个独特的层次结构,其中前沿推理模型大幅优于更小或更旧的基线,顶级模型领先显著。性能因语言而异,顶级系统在法语和意大利语等语言中比中文或西班牙语实现了更高的准确率。gemini-3.1-pro 和 gpt-5 等前沿模型实现了最高的整体准确率。顶级模型与 Ministral-3B 等较弱基线之间存在显著的性能差距。准确率在不同语言间波动,顶级模型在法语和意大利语中表现特别好。

这些实验在 MathNet 基准上使用各种大型语言和多模态模型评估了数学领域的问题解决准确率和检索增强生成。结果表明,显式推理能力和多模态输入始终提高性能,前沿模型大幅优于较弱基线。此外,Expert-RAG 设置通常为顶级系统产生优于 Zero-shot 或 Embed-RAG 配置的性能,尽管结果因特定数学领域和语言而异。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供