Command Palette
Search for a command to run...

摘要
计算资源的指数级增长与高质量文本数据的有限增长之间日益扩大的差距,如今已制约了大型语言模型(LLMs)传统扩展方法的进一步发展。为应对这一挑战,我们提出了一种基于预训练数据的强化学习(Reinforcement Learning on Pre-Training data, RLPT),这是一种全新的训练阶段扩展范式,用于优化大型语言模型。与以往主要依赖监督学习进行训练扩展的方法不同,RLPT使策略能够自主探索有意义的学习轨迹,通过强化学习(RL)从预训练数据中持续学习并提升自身能力。现有强化学习策略,如基于人类反馈的强化学习(RLHF)和基于可验证奖励的强化学习(RLVR),均依赖人工标注来构建奖励信号,而RLPT则通过直接从预训练数据中提取奖励信号,彻底消除了对人工标注的依赖。具体而言,该方法采用“下一文本段推理”目标函数,奖励策略在给定前序上下文的前提下,准确预测后续文本段的表现。这一设定使得强化学习能够高效地在预训练数据上扩展,促进模型在更广泛上下文中探索更丰富的推理路径,从而培养出更具泛化能力的推理技能。在多个模型上针对通用领域与数学推理任务的广泛实验验证了RLPT的有效性。例如,当应用于Qwen3-4B-Base模型时,RLPT在MMLU、MMLU-Pro、GPQA-Diamond、KOR-Bench、AIME24和AIME25等基准测试中分别实现了3.0、5.1、8.1、6.0、6.6和5.3的绝对性能提升。结果还表明,RLPT具备良好的可扩展性,预示着在投入更多计算资源的情况下仍具有持续提升的潜力。此外,RLPT为模型推理能力的边界拓展提供了坚实基础,并显著提升了RLVR的性能表现。