HyperAI超神经

SynLogic:大规模合成可验证推理数据以学习逻辑推理及其他能力

Liu, Junteng ; Fan, Yuanxiang ; Jiang, Zhuo ; Ding, Han ; Hu, Yongyi ; Zhang, Chi ; Shi, Yiqi ; Weng, Shitong ; Chen, Aili ; Chen, Shiqi ; Huang, Yunan ; Zhang, Mozhi ; Zhao, Pengyu ; Yan, Junjie ; He, Junxian
发布日期: 5/28/2025
SynLogic:大规模合成可验证推理数据以学习逻辑推理及其他能力
摘要

近期的研究进展,如OpenAI-o1和DeepSeek R1,已经展示了强化学习(Reinforcement Learning, RL)在增强大规模语言模型(Large Language Models, LLMs)推理能力方面的潜力。尽管开源复制工作主要集中在数学和编程领域,但开发一般推理能力的方法和资源仍然未得到充分探索。这一差距部分归因于收集适合RL的多样化且可验证的推理数据所面临的挑战。我们假设逻辑推理对于发展一般推理能力至关重要,因为逻辑构成了推理的基础构建块。在这项工作中,我们介绍了SynLogic,这是一个数据合成框架和数据集,能够大规模生成多样化的逻辑推理数据,涵盖了35种不同的逻辑推理任务。SynLogic方法支持可控的数据合成,难度和数量均可调节。重要的是,所有示例都可以通过简单的规则进行验证,这使得它们非常适合具有可验证奖励的RL训练。在我们的实验中,我们基于70亿参数和320亿参数的模型验证了在SynLogic数据集上进行RL训练的有效性。SynLogic在开源数据集中实现了最先进的逻辑推理性能,在BBEH基准测试中比DeepSeek-R1-Distill-Qwen-32B高出6分。此外,将SynLogic数据与数学和编程任务混合使用可以提高这些领域的训练效率,并显著增强推理泛化能力。值得注意的是,我们的混合训练模型在多个基准测试中均优于DeepSeek-R1-Zero-Qwen-32B。这些发现表明SynLogic是推进LLMs更广泛推理能力的宝贵资源。我们已将数据合成管道和SynLogic数据集开源至https://github.com/MiniMax-AI/SynLogic。