11 天前

WizardMath:通过强化版 Evol-Instruct 提升大语言模型的数学推理能力

Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou, Chongyang Tao, Xiubo Geng, Qingwei Lin, Shifeng Chen, Yansong Tang, Dongmei Zhang
WizardMath:通过强化版 Evol-Instruct 提升大语言模型的数学推理能力
摘要

大型语言模型(LLMs),如GPT-4,在自然语言处理(NLP)任务中展现出卓越性能,尤其在具有挑战性的数学推理任务中表现突出。然而,目前大多数开源模型仅基于大规模互联网数据进行预训练,缺乏针对数学领域的专门优化。本文提出WizardMath,通过引入我们提出的“基于进化指令反馈的强化学习”(Reinforcement Learning from Evol-Instruct Feedback, RLEIF)方法,显著提升了大模型在数学思维链(Chain-of-Thought, CoT)推理方面的能力,且无需依赖外部Python工具。在GSM8K和MATH两个主流数学推理基准上的大量实验结果表明,本模型展现出非凡的性能表现。值得注意的是,WizardMath-Mistral 7B在保持更高数据效率的同时,显著超越了当前顶尖的开源大模型。此外,WizardMath 70B的性能甚至超过了GPT-3.5-Turbo、Claude 2、Gemini Pro以及GPT-4的早期版本。进一步的初步探索还揭示了指令演化(instruction evolution)与过程监督(process supervision)在实现卓越数学推理能力中的关键作用。更多详细信息请参见:https://github.com/nlpxucan/WizardLM

WizardMath:通过强化版 Evol-Instruct 提升大语言模型的数学推理能力 | 最新论文 | HyperAI超神经