微软新研究:仅用一个示例即可大幅提升大型语言模型的推理能力
1-Shot RLVR:从单一示例实现强化学习的重大突破 直到最近,强化学习一直被认为是一项昂贵的技术,通常需要资金雄厚的实验室和大量数据才能实施。然而,微软与学术界合作的一项新研究打破了这一假设。通过使用可验证奖励信号的强化学习(RLVR),研究人员仅用一个训练示例就实现了与数千个示例训练模型相当或更好的效果。 什么是1-Shot RLVR? RLVR是一种强化学习方法,其训练过程中使用的是硬地面真值的奖励信号,通常是基于输出正确与否的0/1奖励。与其他基于人类反馈的奖励模型不同,RLVR依赖于高度精确的事实数据。研究发现,如果在基础模型(如Qwen2.5-Math-1.5B)上应用1-Shot RLVR并用单一精心选择的数学示例进行训练,其在基准测试中的性能几乎可以翻倍。 数字令人震惊 当Qwen2.5-Math-1.5B仅通过一个示例进行训练时,其在MATH500测试集上的表现达到了69.4%,而在平均基准测试中则达到了34.5%。即使使用两个示例,其表现也达到了74.8%和36.6%,稍优于使用完整1200个示例的数据集。许多不同的单一示例均能产生约30%或更高的性能提升。 为什么这种方法有效? 研究者提出了一些关键假设和发现: 策略梯度损失起主导作用:移除策略梯度损失会导致性能下降,证明这一点是改进的主要驱动力。 熵损失促进探索:即使没有奖励,加入熵正则化也能使性能提升超过25%。 后饱和泛化:模型在训练示例上的准确性迅速达到100%,但测试集上的泛化能力仍在持续改善。 跨领域效应:几何示例不仅在几何问题上表现出色,还能提高代数和数论问题的解决能力。 自反思增加:通过1-Shot RLVR训练的模型更频繁地使用“重新思考”、“重新检查”和“重新计算”等表述。 对开发者的影响 对于开发基于大型语言模型(LLM)的推理工具、数学解题器、科学辅导系统或数据代理,1-Shot RLVR提供了巨大的优势。想象一下,一个只需学习单个问题就能在全课程中表现良好的AI辅导系统,未来已经近在咫尺。 此外,该方法还在非数学推理任务中显示出早期转移效果。研究人员在ARC-Challenge和ARC-Easy等非数学基准测试中观察到,即使是在数学示例上训练的模型,其常识推理能力也得到了显著提升。 好的示例如何选择? 研究发现,使用历史训练方差选择高影响力示例(如π1和π13)非常有效。但令人惊讶的是,即使是低方差的示例,在1-Shot RLVR中也能显著提高性能。目前还没有完美的方法来选择最佳示例,但初步研究表明,几乎所有示例都能在一定程度上改善性能。 并非所有模型都适用 对于某些蒸馏模型,如DeepSeek-R1-Distill-Qwen-1.5B,1-Shot RLVR的性能提升较为有限(约6.9%)。但当扩展到4-Shot或16-Shot设置时,性能依然会稳步提升。这表明,模型类型和训练历史对性能有影响,但总体趋势仍然显示,所需数据量远远少于预期。 熵的作用:为什么探索重要? 研究中最令人惊讶的发现之一是,即使没有奖励信号,仅熵损失也能够带来大幅性能提升。例如,仅使用熵损失训练Qwen2.5-Math-1.5B,在20步内就能将MATH500的性能从36.0%提高到63.4%。这揭示了一个强大的原理:允许模型更自由地探索有助于它们即使从单个示例中也能泛化出更好的性能。 行业内评价与公司背景 业内人士认为,这项研究展示了通过更智能的数据选择和强化学习技术,可以在较少数据的情况下解锁模型的强大能力。这对于那些希望将AI技术从原型阶段推向生产阶段的开发者来说是一个重大突破。微软作为全球顶尖的科技公司,其研究成果具有重要的参考价值,尤其是对于那些资源有限但仍需高性能AI解决方案的中小企业来说。Adaptive Engine等工具的出现,更是为这一技术的实际应用提供了有力支持。