Command Palette

Search for a command to run...

5 个月前

通过单步奖励实现多轮代码生成

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

通过单步奖励实现多轮代码生成

摘要

我们解决了多轮执行反馈下的代码生成问题。现有的方法要么在没有反馈的情况下生成代码,要么使用复杂的分层强化学习来优化多轮奖励。我们提出了一种简单且可扩展的方法——CODE,该方法仅使用单步奖励即可解决多轮代码生成问题。我们的关键洞察是,代码生成是一个一步可恢复的马尔可夫决策过程(MDP),其中正确的代码可以从任何中间代码状态在一轮内恢复。CODE 通过迭代训练一个生成器和一个验证器来实现这一目标,生成器根据多轮执行反馈提供代码解决方案,而验证器则对新生成的代码进行评分。实验评估表明,我们的方法在现有最先进基线模型上取得了显著改进。我们分析了奖励模型和策略的设计选择,并展示了 CODE 在利用执行反馈方面的有效性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供