强化预训练
Qingxiu Dong, Li Dong, Yao Tang, Tianzhu Ye, Yutao Sun, Zhifang Sui, Furu Wei
发布日期: 6/12/2025

摘要
在本研究中,我们引入了强化预训练 (RPT),将其作为一种新的大型语言模型和强化学习 (RL) 扩展范式。具体而言,我们将下一个标记预测重新定义为使用 RL 训练的推理任务,在给定上下文中正确预测下一个标记将获得可验证的奖励。RPT 提供了一种可扩展的方法,可以利用海量文本数据进行通用 RL,而无需依赖特定领域的带注释答案。通过激励下一个标记推理的能力,RPT 显著提高了语言模型预测下一个标记的准确性。此外,RPT 为进一步的强化微调提供了强大的预训练基础。扩展曲线表明,增加训练计算量可以持续提高下一个标记预测的准确性。结果表明,RPT 是一种有效且前景广阔的扩展范式,可用于推进语言模型预训练。