HyperAI超神经

博士水平的大型语言模型是否真正掌握了基本加法?探究规则学习与记忆在大型语言模型中的区别

Yang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan
发布日期: 4/16/2025
博士水平的大型语言模型是否真正掌握了基本加法?探究规则学习与记忆在大型语言模型中的区别
摘要

尽管大型语言模型(LLMs)在基准测试中取得了高分,但它们在解决简单问题时经常失败,这引发了一个关键问题:大型语言模型是学习了数学原理,还是仅仅记住了模式?与近期研究中设计越来越复杂的基准测试不同,我们通过探究基本的两位整数加法(0 到 2^64),来考察两个核心属性:交换律(A+B=B+A)和组合泛化(通过同构符号映射,例如 7 → y)。尽管最先进的大型语言模型在数值加法上的准确率达到了 73.8% 至 99.8%,但在符号映射下的性能却急剧下降至不超过 7.5%,这表明它们未能泛化所学规则。随着数字位数的增加,性能变化呈现非单调性,并且频繁出现交换律违反的情况(超过 1,700 个 A+B ≠ B+A 的案例),进一步支持了这一结论。显式提供加法规则平均会降低性能 81.2%,而自我解释则保持了基线准确率,这表明大型语言模型的算术处理与人类定义的原则存在偏差。我们的研究结果表明,当前的大型语言模型主要依赖于记忆模式而非真正的规则学习,突显了其架构上的局限性,并指出了实现真正数学推理的新方法的需求。