HyperAI超神经

反思、重试、奖励:通过强化学习实现自我改进的LLM模型

Bensal, Shelly ; Jamil, Umar ; Bryant, Christopher ; Russak, Melisa ; Kamble, Kiran ; Mozolevskyi, Dmytro ; Ali, Muayad ; AlShikh, Waseem
发布日期: 6/4/2025
反思、重试、奖励:通过强化学习实现自我改进的LLM模型
摘要

我们探讨了一种通过自我反思和强化学习来提高大型语言模型性能的方法。通过激励模型在回答错误时生成更好的自我反思,我们证明了即使在生成合成数据不可行且仅有二元反馈的情况下,模型解决复杂、可验证任务的能力仍能得到提升。我们的框架分为两个阶段:首先,在给定任务失败后,模型会生成一段自我反思的评论,分析其之前的尝试;其次,模型会在包含自我反思的上下文中再次尝试该任务。如果后续尝试成功,则在自我反思阶段生成的标记将获得奖励。实验结果表明,该方法在多种模型架构中均取得了显著的性能提升,数学方程写作方面最高提升了34.7%,函数调用方面提升了18.1%。值得注意的是,经过微调的小型模型(15亿至70亿参数)的表现优于同系列中参数量为其十倍的大型模型。因此,我们的这一新颖范式为在有限外部反馈下实现更具实用性和可靠性的语言模型提供了一条令人兴奋的新途径。