Command Palette
Search for a command to run...

摘要
强化学习(RL)已成为提高大型语言模型(LLM)推理能力的一种有前景的方法,然而大多数公开的努力主要集中在数学和代码上,这限制了我们对其在一般推理领域广泛应用的理解。一个关键挑战在于缺乏跨多样推理领域的可靠且可扩展的RL奖励信号。为此,我们引入了Guru,这是一个精心策划的RL推理语料库,包含92,000个可验证的例子,涵盖了六个推理领域——数学、代码、科学、逻辑、模拟和表格数据——每个领域都通过特定领域的奖励设计、去重和过滤来确保其在RL训练中的可靠性和有效性。 基于Guru,我们系统地重新审视了RL在LLM推理中的已知发现,并观察到不同领域之间的显著差异。例如,先前的研究表明RL主要从预训练模型中提取现有知识,但我们的结果揭示了一个更为复杂的模式:在预训练过程中经常遇到的领域(如数学、代码和科学)可以从跨域RL训练中轻松受益;而预训练暴露较少的领域(如逻辑、模拟和表格数据)则需要进行特定领域的训练才能实现有意义的性能提升。这表明RL可能有助于真实技能的获取。 最后,我们推出了Guru-7B和Guru-32B两个模型,在使用公开数据进行RL训练的开放模型中实现了最先进的性能,在涵盖六个推理领域的17项评估任务中分别超过了最佳基线模型7.9%和6.7%。我们还展示了这些模型有效提升了其基础模型在复杂任务上的Pass@k性能,尤其是那些不太可能出现在预训练数据中的任务。为了促进通用推理的发展,我们将发布数据、模型以及训练和评估代码,详情见此链接:https://this.url