HyperAIHyperAI

Command Palette

Search for a command to run...

Console
3 天前

PolyMath:多语言情境下的数学推理评估

PolyMath:多语言情境下的数学推理评估

摘要

本文介绍了PolyMath,这是一个涵盖18种语言、涵盖从易到难四个难度层级的多语言数学推理基准。该基准在难度覆盖的全面性、语言多样性以及高质量翻译方面均具备保障,使其成为推理型大语言模型(LLM)时代下极具区分度的多语言数学推理评测标准。我们对先进大语言模型进行了全面评估,发现即便是Qwen-3-235B-A22B-Thinking和Gemini-2.5-pro等顶尖模型,其在该基准上的得分也仅为54.6和52.2,且在最高难度层级下准确率仅约40%。从语言视角来看,我们的基准揭示了当前大语言模型在多语言推理中面临的若干关键挑战:(1)当前大语言模型在不同语言上的推理表现差异显著;(2)推理型大语言模型在输入与输出语言一致性方面表现较差,且该一致性可能与模型性能相关;(3)当前大语言模型在不同语言上的推理思考长度存在显著差异。此外,我们还证明,在指令中控制输出语言具有影响推理性能的潜力,尤其对某些低资源语言而言更为明显,这为提升大语言模型多语言能力提供了一个极具前景的研究方向。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PolyMath:多语言情境下的数学推理评估 | 论文 | HyperAI超神经