HyperAI超神经

近日，中国科学技术大学本科校友、美国哈佛大学博士生陈勇超及其团队在大模型代码执行能力方面取得了重要突破。他们利用 Qwen-3B/7B/14B 模型，结合多步监督微调（SFT）和群体相对策略优化（GRPO）技术，在 144 个涉及符号计算的任务上进行了训练。训练过程中，模型被允许多次使用代码执行器来辅助推理，而模型需要自主学会如何在文字推理和符号计算之间切换，从而更有效地解决问题。研究团队发现，虽然模型具备很强的代码生成能力，但过度的文字推理训练会导致这一能力下降，特别是当面对具体抽象问题时。此外，随着任务的多样性和复杂性的增加，模型很难根据不同任务选择合适的策略。为此，研究团队提出了一种新的训练方法，旨在增强模型的代码执行能力和泛化性。陈勇超表示：“单纯依赖强化学习难以达到理想的效果，SFT 阶段同样非常重要。” 在此前的工作基础上，研究团队开发了两种不同的方法来应对这一挑战。第一种方法是额外训练一个辅助模型，帮助主模型更好地生成代码。这种方法的优点是辅助模型较小，训练难度较低，能够探测到当前模型的最佳性能。第二种方法是直接微调单个大模型，使其在文字推理和符号计算之间自由切换，以达到最佳的综合表现。经过多种实验验证，研究团队发现第一种方法的辅助模型 CodeSteer 能够显著提升 GPT-4o 的代码生成和利用能力，甚至在很多任务上优于现有的最先进模型 o1 和 DeepSeek-R1。第二种方法 R1-Code-Interpreter 则通过监督学习与强化学习的结合，使单一模型具备更强的灵活性和适应性，能够在不同类型的任务中更自如地运用代码执行器。陈勇超认为，未来的大模型应该能够在三种方法模式之间自由选择和衔接：1）直接生成答案；2）调用外部工具；3）生成代码来创建合适的工具。他计划进一步探索将这些模式结合起来的方法，并在具体的实际应用场景中验证可行性。这项研究不仅提升了大模型在推理和规划任务中的表现，也为构建更加智能、灵活的代理系统提供了新的思路。目前，该成果已发表在预印本网站 arXiv 上。业内人士对这项研究给予了高度评价，认为这是大模型领域的一个重要进展。陈勇超及其团队的研究不仅揭示了现有代码执行器的局限性，还提出了解决这些问题的有效方法，为大模型在未来更多的应用场景中发挥作用奠定了基础。陈勇超目前在美国哈佛大学攻读博士学位，专注于机器学习和自然语言处理方向的研究，此前在多个国际顶级会议上发表过论文。

研究突破：大模型如何巧妙结合代码执行与文本推理提升智能规划能力

Related Links