6 days ago
多级逐步提示增强强化学习推理能力
Kaiyi Zhang, Ang Lv, Jinpeng Li, Yongbo Wang, Feng Wang, Haoyuan Hu, Rui Yan

摘要
强化学习与可验证奖励(RLVR)是一种有前景的方法,用于提升大型语言模型(LLMs)的复杂推理能力。然而,当前的RLVR方法面临着两个主要挑战:一是“接近失败奖励问题”(near-miss reward problem),即一个小错误可能会使原本正确的推理过程失效,严重阻碍训练效率;二是探索停滞问题,即模型倾向于在其“舒适区”内寻找解决方案,缺乏探索潜在更有效替代方案的动力。为了解决这些挑战,我们提出了一种新的RLVR算法——StepHint,该算法利用多层次逐步提示帮助模型更有效地探索解空间。StepHint从更强的模型生成有效的推理链,并使用我们提出的自适应分区方法将这些链划分为推理步骤。最初的几个步骤被用作提示,同时向模型提供多层级提示(每层包含不同数量的步骤)。这种方法引导模型的探索方向朝向有希望的解子空间,同时保留其独立探索的灵活性。通过提供提示,StepHint缓解了接近失败奖励问题,从而提高了训练效率。此外,外部推理路径有助于模型发展更好的推理能力,使其能够超越其“舒适区”,减轻探索停滞问题。在六个数学基准测试中,StepHint的表现优于竞争性的RLVR增强方法,并且在域外基准测试中也展示了出色的泛化能力和对基线方法的优势。