7 days ago
“一个领域能否帮助其他领域?”基于数据的多领域强化学习推理研究
Yu Li, Zhuoshi Pan, Honglin Lin, Mengyuan Sun, Conghui He, Lijun Wu

摘要
基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)已成为提升大语言模型(LLMs)推理能力的重要范式。现有研究主要集中在单一的推理领域,如数学问题求解、代码生成或逻辑推理。然而,现实世界中的推理场景本质上需要多种认知能力的综合应用。尽管如此,这些推理能力在强化学习框架下的相互作用仍缺乏深入理解。为弥补这一差距,我们在RLVR框架下系统地研究了多领域推理,特别关注三个主要领域:数学推理、代码生成和逻辑谜题求解。本研究包括四个关键组成部分:(1)利用GRPO算法和Qwen-2.5-7B模型系列,我们全面评估了模型在单一领域数据集上训练后的领域内改进效果以及跨领域泛化能力;(2)此外,我们还研究了在跨领域联合训练过程中出现的复杂交互,包括相互增强和冲突现象;(3)为进一步理解监督微调(SFT)对强化学习(RL)的影响,我们还在相同的RL配置下,对基础模型(base model)和指令模型(instruct model)的性能差异进行了分析与比较;(4)同时,我们深入探讨了强化学习训练中的关键细节,系统地研究了课程学习策略、奖励设计的变化以及语言特性等因素的影响。通过大量实验,我们的研究结果揭示了影响领域间交互的关键机制,明确了影响模型专业化与泛化推理能力的重要因素。这些发现为优化强化学习方法、提升大语言模型的综合性多领域推理能力提供了重要的指导。