微软新突破:仅用一个示例实现强化学习性能飞跃
新研究颠覆了传统认知,显示只需一个训练样本,利用强化学习与可验证奖励(Reinforcement Learning with Verifiable Rewards,简称RLVR)即可实现与大规模数据集训练模型相当甚至更优的结果。这项研究由微软及其学术合作伙伴联合完成,发表于近期的一篇论文中。 1-Shot RLVR 是什么? RLVR 是一种强化学习方法,其特点是通过可验证的奖励信号(通常是根据输出是否正确而定的0/1奖励)来训练模型。不同于传统的基于人类反馈的奖励模型(Rlhf),RLVR 使用硬性的真实值作为奖励信号。研究发现,如果在基础模型(如 Qwen2.5-Math-1.5B)上应用 RLVR 并仅用一个精心挑选的数学示例进行训练,模型在基准任务上的表现可以接近翻倍。 数据的显著效果 实验结果显示,当 Qwen2.5-Math-1.5B 模型仅用一个示例进行训练时,在 MATH500 数据集上的准确率大幅提升: 单一示例:从 33.0% 提升到 65.5% 两个示例:达到 74.8%,平均提升 36.6% 全数据集(1.2k 示例):平均提升 33.5% 这意味着即使是单个示例,也能带来显著的效果提升,而且这种提升并不局限于某一特定示例。 为何这种方法有效? 研究人员提出了几个关键假设和发现: 策略梯度损失起决定作用:移除这一部分会使性能提升消失,表明其是改进的核心因素。 熵损失鼓励探索:即使没有奖励信号,添加熵正则化也能使性能提升超过 25%。 后饱和泛化:模型在训练示例上的准确率迅速达到 100%,但在测试集上的表现仍继续改善。 跨领域效应:几何示例不仅提升了几何问题的解决能力,还增强了代数和数论方面的能力。 自我反思增加:模型在 1-Shot RLVR 训练后会更频繁地使用“重新思考”、“重新检查”和“重新计算”等短语。 对开发者的意义 对于构建大型语言模型(LLM)驱动的推理工具、数学解题器、科学辅导工具或数据代理的开发者来说,1-Shot RLVR 技术提供了巨大的优势。想象一下,一个 AI 辅导老师仅通过一个题目就能学会整个课程的内容,这未来的距离我们不再遥远。此外,实验还显示,这种技术在非数学推理任务上也有显著提升,表明 1-Shot RLVR 的潜力不仅限于数学领域。 不同模型的表现差异 尽管大多数模型都能从 1-Shot RLVR 中受益,但一些蒸馏模型(如 DeepSeek-R1-Distill-Qwen-1.5B)的性能提升较为有限(约 6.9%)。然而,当增加示例数量至 4 个或 16 个时,这些模型也表现出稳定的提升。这提示模型家族和训练历史对 1-Shot RLVR 的效果有一定影响,但总体趋势是,所需数据量远少于传统方法。 熵的作用:探索的重要性 有趣的是,研究人员发现仅使用熵损失,即便没有奖励信号,也能带来显著的性能提升。例如,在 Qwen2.5-Math-1.5B 模型上,仅用熵损失在 20 步训练后,MATH500 准确率从 36.0% 提升到了 63.4%。这揭示了一个重要的原则:让模型更加自由地探索有助于从有限的数据中泛化。 1-Shot ≠ Grokking 尽管 1-Shot RLVR 在训练初期快速达到高准确率,并在后续持续优化,但它并不是“grokking”现象(即模型经过长时间过拟合后突然泛化)。实验表明,1-Shot RLVR 的机制与 grokking 有所不同。 未来展望:更智能的数据,更小的资源占用 这项研究提醒我们,更多数据并不总是解决问题的关键。更好的数据选择和强化学习,特别是从单一示例中学习,可能解锁基础模型的强大能力。这对于希望从原型到生产环境的开发者尤为重要,因为它意味着可以显著减少数据需求和训练成本。 行业人士评价 业内人士认为,1-Shot RLVR 是一个里程碑式的研究,它为减少数据依赖、提高训练效率提供了新的思路。微软在 AI 领域的技术积累和创新实力,再次在这一研究中得到了体现。该技术有望在未来广泛应用于各种推理任务,特别是在资源有限的情况下。 Adaptive Engine 是微软推出的一款支持 1-Shot RLVR 技术的工具,帮助开发者从实验到实际部署无缝对接,确保模型在实际应用场景中也能高效运行。