HyperAI

4 天前

2026年4月1日至5月15日，由49位数学家组成的团队在德国莱比锡马克斯·普朗克科学研究所完成了莱比锡基准数据集的构建工作。其中35名核心成员通过为期三天的专题工作坊集中攻关，最终产出一百道附带标准答案的研究级数学题目。该数据集旨在全面评估人工智能大模型的复杂数学推理能力。研究团队采用三阶段递进式测试方案。第一阶段由五款前沿大语言模型进行单次作答，结果显示有四十一道题目完全未能解决。第二阶段针对表现优异的三款模型各开展二十次独立运行测试，未解题数显著下降至十六道。第三阶段引入两款主打深度思考的模型进行三次重试，最终仅余两道题目未被攻克。测试结果表明，当前主流大模型在处理高阶抽象数学问题时已展现出显著的推理能力跃升。随着算法架构的持续迭代，人工智能在基础科学研究辅助领域的潜力正得到实质性验证。该基准的发布将为后续衡量模型数学能力提供权威标尺，并推动人工智能与数学交叉研究的深入发展。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达 SOTA

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达 SOTA

Command Palette

莱比锡基准测试

相关链接

Command Palette

莱比锡基准测试

相关链接

Command Palette

莱比锡基准测试

相关链接

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达 SOTA

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达 SOTA