2 个月前

Yiming Wang Pei Zhang Jialong Tang Haoran Wei Baosong Yang Rui Wang Chenshu Sun Feitong Sun Jiran Zhang Junxuan Wu

摘要

本文介绍了PolyMath，这是一个涵盖18种语言、涵盖从易到难四个难度层级的多语言数学推理基准。该基准在难度覆盖的全面性、语言多样性以及高质量翻译方面均具备保障，使其成为推理型大语言模型（LLM）时代下极具区分度的多语言数学推理评测标准。我们对先进大语言模型进行了全面评估，发现即便是Qwen-3-235B-A22B-Thinking和Gemini-2.5-pro等顶尖模型，其在该基准上的得分也仅为54.6和52.2，且在最高难度层级下准确率仅约40%。从语言视角来看，我们的基准揭示了当前大语言模型在多语言推理中面临的若干关键挑战：（1）当前大语言模型在不同语言上的推理表现差异显著；（2）推理型大语言模型在输入与输出语言一致性方面表现较差，且该一致性可能与模型性能相关；（3）当前大语言模型在不同语言上的推理思考长度存在显著差异。此外，我们还证明，在指令中控制输出语言具有影响推理性能的潜力，尤其对某些低资源语言而言更为明显，这为提升大语言模型多语言能力提供了一个极具前景的研究方向。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 个月前

Yiming Wang Pei Zhang Jialong Tang Haoran Wei Baosong Yang Rui Wang Chenshu Sun Feitong Sun Jiran Zhang Junxuan Wu

摘要

本文介绍了PolyMath，这是一个涵盖18种语言、涵盖从易到难四个难度层级的多语言数学推理基准。该基准在难度覆盖的全面性、语言多样性以及高质量翻译方面均具备保障，使其成为推理型大语言模型（LLM）时代下极具区分度的多语言数学推理评测标准。我们对先进大语言模型进行了全面评估，发现即便是Qwen-3-235B-A22B-Thinking和Gemini-2.5-pro等顶尖模型，其在该基准上的得分也仅为54.6和52.2，且在最高难度层级下准确率仅约40%。从语言视角来看，我们的基准揭示了当前大语言模型在多语言推理中面临的若干关键挑战：（1）当前大语言模型在不同语言上的推理表现差异显著；（2）推理型大语言模型在输入与输出语言一致性方面表现较差，且该一致性可能与模型性能相关；（3）当前大语言模型在不同语言上的推理思考长度存在显著差异。此外，我们还证明，在指令中控制输出语言具有影响推理性能的潜力，尤其对某些低资源语言而言更为明显，这为提升大语言模型多语言能力提供了一个极具前景的研究方向。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供