莱比锡基准测试
2026年4月1日至5月15日,由49位数学家组成的团队在德国莱比锡马克斯·普朗克科学研究所完成了莱比锡基准数据集的构建工作。其中35名核心成员通过为期三天的专题工作坊集中攻关,最终产出一百道附带标准答案的研究级数学题目。该数据集旨在全面评估人工智能大模型的复杂数学推理能力。 研究团队采用三阶段递进式测试方案。第一阶段由五款前沿大语言模型进行单次作答,结果显示有四十一道题目完全未能解决。第二阶段针对表现优异的三款模型各开展二十次独立运行测试,未解题数显著下降至十六道。第三阶段引入两款主打深度思考的模型进行三次重试,最终仅余两道题目未被攻克。 测试结果表明,当前主流大模型在处理高阶抽象数学问题时已展现出显著的推理能力跃升。随着算法架构的持续迭代,人工智能在基础科学研究辅助领域的潜力正得到实质性验证。该基准的发布将为后续衡量模型数学能力提供权威标尺,并推动人工智能与数学交叉研究的深入发展。
