HyperAI超神经

信心即一切:语言模型的少样本强化学习微调

Li, Pengyi ; Skripkin, Matvey ; Zubrey, Alexander ; Kuznetsov, Andrey ; Oseledets, Ivan
发布日期: 6/12/2025
信心即一切:语言模型的少样本强化学习微调
摘要

大型语言模型(LLMs)在推理方面表现出色,然而训练后的调优对于使其行为与任务目标对齐仍然至关重要。现有的强化学习(RL)方法通常依赖于昂贵的人工标注或外部奖励模型。我们提出了一种通过自信心进行强化学习的方法(Reinforcement Learning via Self-Confidence, RLSC),该方法利用模型自身的置信度作为奖励信号,从而消除了对标签、偏好模型或奖励工程的需求。将RLSC应用于Qwen2.5-Math-7B模型,仅需每题16个样本和10或20个训练步骤,即可在AIME2024上提高准确率13.4%,在MATH500上提高21.2%,在Minerva Math上提高21.7%,在Olympiadbench上提高20.8%,以及在AMC23上提高9.7%。RLSC提供了一种简单且可扩展的推理模型后训练方法,只需要少量样本和无监督指导。