11 天前

Qwen2.5-Math 技术报告:通过自我改进迈向数学专家模型

An Yang, Beichen Zhang, Binyuan Hui, Bofei Gao, Bowen Yu, Chengpeng Li, Dayiheng Liu, Jianhong Tu, Jingren Zhou, Junyang Lin, Keming Lu, Mingfeng Xue, Runji Lin, Tianyu Liu, Xingzhang Ren, Zhenru Zhang
Qwen2.5-Math 技术报告:通过自我改进迈向数学专家模型
摘要

在本报告中,我们推出了一系列专为数学任务优化的大语言模型:Qwen2.5-Math 以及 Qwen2.5-Math-Instruct-1.5B/7B/72B。Qwen2.5 系列的核心创新在于将“自我提升”理念贯穿于模型从预训练、后训练到推理的全流程之中:(1)在预训练阶段,我们利用 Qwen2-Math-Instruct 生成大规模、高质量的数学数据;(2)在后训练阶段,我们通过从 Qwen2-Math-Instruct 中进行大规模采样,构建了一个奖励模型(Reward Model, RM),并将其应用于监督微调(Supervised Fine-Tuning, SFT)过程中的数据迭代演化。随着 SFT 模型性能的增强,我们可进一步迭代训练并更新 RM,从而引导下一阶段 SFT 数据的优化。最终,在完成 SFT 的模型基础上,我们采用最终版 RM 进行强化学习,得到 Qwen2.5-Math-Instruct 模型;(3)此外,在推理阶段,该 RM 被用于指导采样过程,进一步优化模型的输出表现。Qwen2.5-Math-Instruct 支持中英文双语,具备先进的数学推理能力,包括思维链(Chain-of-Thought, CoT)与工具融合推理(Tool-Integrated Reasoning, TIR)等关键技术。我们在涵盖中英文的10个数学基准数据集上对模型进行了全面评估,包括 GSM8K、MATH、高考数学(GaoKao)、AMC23 以及 AIME24 等,覆盖从小学水平到数学竞赛级难题的广泛难度范围。

Qwen2.5-Math 技术报告:通过自我改进迈向数学专家模型 | 最新论文 | HyperAI超神经