SwS:强化学习中用于LLM推理的自我感知弱点驱动问题合成
Liang, Xiao ; Li, Zhong-Zhi ; Gong, Yeyun ; Wang, Yang ; Zhang, Hengyuan ; Shen, Yelong ; Wu, Ying Nian ; Chen, Weizhu
发布日期: 6/16/2025

摘要
强化学习带有可验证奖励(RLVR)已被证明在训练大型语言模型(LLMs)进行复杂推理任务(如数学问题求解)方面非常有效。然而,要实现RLVR的可扩展性,需要一个高质量的问题集,其中包含精确且可验证的答案。然而,现有的蒸馏导向合成数据集中缺乏精心设计的人工标注数学问题和有限验证答案,这限制了它们在强化学习中的有效性。此外,大多数问题生成策略不加区分地扩展问题集,而不考虑模型的能力,导致生成有用问题的效率低下。为了解决这一问题,我们引入了一种自知弱点驱动的问题生成框架(SwS),该框架系统地识别模型的不足,并利用这些不足进行问题增强。具体而言,我们将弱点定义为模型在迭代采样过程中始终无法学会的问题。然后从这些失败案例中提取核心概念,并合成新的问题以加强模型在后续增强训练中的薄弱环节,使其能够专注于并逐步克服自身的弱点。无需依赖外部知识蒸馏,我们的框架通过使模型能够在RL中自我识别和解决其弱点来实现强大的泛化能力,在八个主流推理基准测试中分别使7B和32B模型的平均性能提高了10.0%和7.7%。