通过单步奖励实现多轮代码生成
Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury
发布日期: 6/20/2025

摘要
我们解决了多轮执行反馈下的代码生成问题。现有的方法要么在没有反馈的情况下生成代码,要么使用复杂的分层强化学习来优化多轮奖励。我们提出了一种简单且可扩展的方法——CODE,该方法仅使用单步奖励即可解决多轮代码生成问题。我们的关键洞察是,代码生成是一个一步可恢复的马尔可夫决策过程(MDP),其中正确的代码可以从任何中间代码状态在一轮内恢复。CODE 通过迭代训练一个生成器和一个验证器来实现这一目标,生成器根据多轮执行反馈提供代码解决方案,而验证器则对新生成的代码进行评分。实验评估表明,我们的方法在现有最先进基线模型上取得了显著改进。我们分析了奖励模型和策略的设计选择,并展示了 CODE 在利用执行反馈方面的有效性。