11 天前
MuggleMath:评估查询与响应增强对数学推理的影响
Chengpeng Li, Zheng Yuan, Hongyi Yuan, Guanting Dong, Keming Lu, Jiancan Wu, Chuanqi Tan, Xiang Wang, Chang Zhou

摘要
在数学推理任务中,通过查询演化(query evolution)与多样化推理路径进行微调数据增强,已被实证证明具有显著有效性,显著缩小了开源大语言模型(LLMs)与顶尖闭源模型之间的性能差距。本文针对数学推理中的数据增强方法展开系统性研究,旨在回答三个核心问题:(1)哪些数据增强策略更为有效?(2)增强数据量与模型性能之间存在怎样的扩展关系?(3)数据增强能否促进模型在跨领域数学推理任务上的泛化能力?为此,我们基于GSM8K和MATH数据集,通过复杂化与多样化查询,并从中采样多条推理路径,构建了两个新的增强数据集——AugGSM8K与AugMATH。基于此,我们对LLaMA系列模型进行微调,获得了名为MuggleMath的一系列大语言模型。实验结果表明,MuggleMath在GSM8K和MATH两个基准上均取得了新的最先进(SOTA)性能。进一步分析发现,MuggleMath在GSM8K上的性能与增强数据量之间呈现对数线性关系,而在MATH上则表现为分段对数线性关系,揭示了不同数据集下模型性能随数据量增长的非均匀扩展特性。此外,我们观察到模型在跨领域泛化方面表现较弱:从AugGSM8K增强数据训练的模型在MATH任务上泛化能力有限,反之亦然。这一现象表明,仅在单一领域内扩展查询的覆盖范围不足以提升泛化能力,而构建涵盖更广泛数学主题的多样化查询,对促进模型的跨领域推理能力更为关键。相关代码与增强数据集已开源,详见:https://github.com/OFA-Sys/gsm8k-ScRel。