HyperAI超神经
a day ago

数学推理是否提升通用大语言模型的能力?理解大语言模型推理的可迁移性

Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue
数学推理是否提升通用大语言模型的能力?理解大语言模型推理的可迁移性
摘要

数学推理已成为大型语言模型(LLMs)进步的标志,新模型在MATH和AIME等基准测试中迅速超越人类水平的表现。然而,随着数学排行榜每周的提升,值得思考的是:这些进展是否反映了更广泛的解决问题的能力,还是仅仅局限于特定领域的过拟合?为了回答这个问题,我们对超过20个开放权重的推理调优模型进行了广泛的任务评估,包括数学、科学问答、代理规划、编程和标准指令执行。令人惊讶的是,大多数在数学上取得成功的模型未能将其优势转移到其他领域。为了深入研究这一现象,我们使用仅包含数学数据但采用不同调优方法的Qwen3-14B模型进行了受控实验。结果表明,经过强化学习(RL)调优的模型在各个领域都表现出良好的泛化能力,而经过监督微调(SFT)调优的模型则常常忘记一般能力。潜在空间表示和标记空间分布变化分析显示,SFT导致了显著的表示和输出漂移,而RL则保留了一般领域的结构。我们的研究结果提示需要重新考虑标准的后训练方案,特别是依赖于通过SFT蒸馏的数据来推进推理模型的做法。