HyperAI超神经

摘要

我们解决了多轮执行反馈下的代码生成问题。现有的方法要么在没有反馈的情况下生成代码，要么使用复杂的分层强化学习来优化多轮奖励。我们提出了一种简单且可扩展的方法——CODE，该方法仅使用单步奖励即可解决多轮代码生成问题。我们的关键洞察是，代码生成是一个一步可恢复的马尔可夫决策过程（MDP），其中正确的代码可以从任何中间代码状态在一轮内恢复。CODE 通过迭代训练一个生成器和一个验证器来实现这一目标，生成器根据多轮执行反馈提供代码解决方案，而验证器则对新生成的代码进行评分。实验评估表明，我们的方法在现有最先进基线模型上取得了显著改进。我们分析了奖励模型和策略的设计选择，并展示了 CODE 在利用执行反馈方面的有效性。

摘要

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

摘要

用 AI 构建 AI

HyperAI Newsletters

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

摘要

用 AI 构建 AI

HyperAI Newsletters

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

通过单步奖励实现多轮代码生成

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

通过单步奖励实现多轮代码生成

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

通过单步奖励实现多轮代码生成

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

摘要

用 AI 构建 AI

HyperAI Newsletters