HyperAIHyperAI

Command Palette

Search for a command to run...

信心即一切:语言模型的少样本强化学习微调

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

摘要

大型语言模型(LLMs)在推理方面表现出色,然而训练后的调优对于使其行为与任务目标对齐仍然至关重要。现有的强化学习(RL)方法通常依赖于昂贵的人工标注或外部奖励模型。我们提出了一种通过自信心进行强化学习的方法(Reinforcement Learning via Self-Confidence, RLSC),该方法利用模型自身的置信度作为奖励信号,从而消除了对标签、偏好模型或奖励工程的需求。将RLSC应用于Qwen2.5-Math-7B模型,仅需每题16个样本和10或20个训练步骤,即可在AIME2024上提高准确率13.4%,在MATH500上提高21.2%,在Minerva Math上提高21.7%,在Olympiadbench上提高20.8%,以及在AMC23上提高9.7%。RLSC提供了一种简单且可扩展的推理模型后训练方法,只需要少量样本和无监督指导。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供