Study Reveals: Large Models Need to Integrate Symbolic Computation to Enhance Code Execution Capabilities
近日,由中国科学技术大学本科校友、哈佛大学博士生陈勇超领导的研究团队,揭示了训练代码执行器在模型能力上的限制,并指出将符号计算融入智能体和具身智能系统的重要性和必要性。 该研究团队以 Qwen-3B、Qwen-7B 和 Qwen-14B 为初始模型,通过多步监督微调(SFT, Supervised Fine-tuning)和群体相对策略优化(GRPO, Group Relative Policy Optimization),使模型在 144 个涉及推理和规划的任务上进行了训练。这些任务中包含大量符号计算的成分,但模型需要自主学习何时采用文字推理、何时使用符号计算,并如何在这两者之间协调配合。 研究团队发现,代码执行器的训练效果受到模型自身能力的制约。例如,当模型接受过多的文字推理训练后,代码生成的能力反而会下降。这种现象在像 LeetCode 这样的特定代码基准测试中通常难以显现,因为能力下降主要体现在将具体抽象问题转化为代码或符号计算的步骤上。而在现实生活中,许多问题虽然含有符号计算的因素,但将其抽象成符号计算问题仍需大量的思考。 任务的多样性是另一项挑战。虽然训练单个任务的代码执行系统相对容易,但在面对多种任务时,模型很难根据不同任务的特性选择合适的策略,因为许多任务对策略的偏好是截然相反的。鉴于此,研究人员发现仅靠强化学习往往难以取得理想的效果。这与在数学任务或检索任务中使用强化学习的情况不同,后者通常可以完成有效的训练。 为此,多步监督微调阶段在该研究中显得尤为重要。陈勇超和他的团队发现,大模型需要能够在文字推理和符号计算之间自如切换,从而高效地处理各种推理规划任务。他们提出,如果大模型能够自然高效地利用代码执行器,并在不同模态间灵活切换,将大大提高任务处理的效率,同时不会损失大模型的泛化能力。 在此前的研究中,该团队已经在 ICRA 2024 发表了 AutoTAMP[1],并在 NAACL 2025 发表了 TravelPlanner[2]。这两项研究分别利用预先设计的框架和算法,将大模型与符号计算工具结合,用于解决机器人和旅行规划中的一些问题。尽管取得了良好效果,但这种方法的泛化性仍有局限,因为不同的任务需求可能需要不同的算法和框架。 陈勇超在 2024 年微软研究院实习期间首次提出了以代码为载体,融合各类算法、控制器和规划器的想法。由于符号计算通常是在人为预先设定的规则语言下调用各种算法,如编程语言、控制器和规划搜索方法等,而当前的大模型在训练后已具备较强的代码生成能力,因此研究团队认为,大模型应能够在文字推理和符号计算之间灵活转换,以高效处理各种任务。 为了验证这一想法,研究团队测试了当前 OpenAI 的 Code-Interpreter,发现其在处理某些任务时存在明显的问题。例如,有些任务显然更适合通过生成代码来解决,但模型仍然倾向于使用文字推理,导致错误的发生。即使通过调整提示词试图引导模型生成代码,生成的代码也常包含无效成分,未能充分利用符号计算。 基于这些发现,研究团队撰写并发表了题为《在代码执行与文本推理之间引导大型语言模型》(Steering Large Language Models between Code Execution and Textual Reasoning)的论文,刊登在 2025 年的国际学习表征会议(ICLR)上[3]。 为了解决上述不足,研究团队采用了两种方法训练模型:一是额外训练一个较小的辅助模型来指导主模型的生成,二是直接微调单个模型以同时具备纯文字推理和符号计算的能力。第一种方法训练的 CodeSteer[4] 能够在 8B 辅助模型的指导下,帮助 GPT-4o 充分利用符号计算来解决推理规划问题,甚至在多项任务上超越了 o1 和 DeepSeek-R1 的表现。 第二种方法则是在 R1-Code-Interpreter 工作中所探索的。最终,相关成果以《R1-Code-Interpreter:通过监督学习与强化学习训练大语言模型的代码推理能力》(R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning)为题,在 arXiv 上发表[5]。 陈勇超认为,未来的大模型在处理推理和规划任务时,应该能在三种方法模态之间自由选择和结合:1)直接生成文字答案或控制信号;2)调用外部工具;3)生成代码创建适合的工具。他计划进一步探索方法,将这三种模式结合起来,并在具体实际应用任务中验证其有效性,确保理念的可行性。 参考资料: 1. https://arxiv.org/abs/2306.06531 2. https://aclanthology.org/2025.naacl-long.176/ 3. https://openreview.net/forum?id=5X5Z7Ffrjb 4. https://arxiv.org/abs/2502.04350 5. https://arxiv.org/abs/2505.21668