HyperAI超神经

近日，美国哈佛大学博士生陈勇超及其团队针对代码执行器在模型训练中的限制进行了深入研究，并提出了解决方案。该研究主要以 Qwen-3B/7B/14B 为初始模型，借助多步监督微调（SFT）和群体相对策略优化（GRPO）两种技术，使模型能够在 144 个推理和规划任务中灵活使用代码执行器。实验表明，单纯强化学习在这些任务上效果不理想，因为它们往往需要模型在文字推理与符号计算之间作出平衡，而任务的多样性和复杂性给模型带来了挑战。陈勇超团队发现，代码生成能力可能会因过度的文字推理训练而下降，这一问题在现实应用中更为显著，如抽象问题的解析与代码的生成。为了克服这一瓶颈，他们提出了两种策略：一是通过训练一个较小的辅助模型来指导主模型的代码生成，如 CodeSteer，其能够使 8B 主模型在 GPT-4o 的指导下，更好地利用符号计算解决复杂的推理任务；另一种策略是直接通过监督学习与强化学习的结合，调整大模型自身在文字推理和代码执行之间的策略，最终形成了 R1-Code-Interpreter 模型。后者不仅提升了模型的代码生成质量，还保持了其原有的泛化能力和文字推理水平。 R1-Code-Interpreter 模型的成功应用有望为未来智能体和具身智能系统的发展开辟新的道路。在很多实际任务中，如旅行规划、机器人任务与移动规划、科学问题求解等，融合符号计算与大模型的优势能够显著提高任务解决效率。例如，当大模型帮助用户规划旅行路线时，它需要在预算、偏好、行程和价格等多个因素下进行综合优化，符号计算在此过程中发挥了不可替代的作用。同理，对于某些需要代码生成的任务，如“9.9 和 9.11 比大小”及“strawberry 里面有几个 r”，模型生成代码的解决方式通常比纯文字推理更直接有效。研究团队指出，虽然现代大模型具备一定的代码生成能力，但它们在实际应用场景中往往不能充分调动这一能力。通过 SFT 和 GRPO 技术，模型可以在文字推理和符号计算之间自由切换，从而实现更加高效和准确的任务处理。此外，陈勇超提出，未来的大模型应能够在三种模式中灵活选择：自主生成答案、调用外部工具、生成代码以创造适当的工具。研究团队计划进一步探索这些方法的实际应用效果，并将其应用于具体的任务场景中，以验证方案的可行性和有效性。业内人士普遍认为，这项研究为大模型与符号计算的有效结合提供了理论依据和技术支持，具有较高的实用价值和发展潜力。陈勇超的背景是机器学习和机器人学领域的一名杰出青年学者，其团队长期以来致力于将深度学习与传统符号计算相结合，提升智能系统的综合性能。该研究成果不仅是对现有技术的补充和完善，也是对未来 AI 发展方向的一次有意义的探索。

研究揭示：大模型训练代码执行能力受限，智能体需融合符号计算提升效率

Related Links