
摘要
我们提出 Klear-Reasoner,这是一种具备长链推理能力的模型,在问题求解过程中展现出细致的思考与权衡,能够在多个基准测试中取得卓越性能。尽管当前社区已涌现出众多优秀的推理模型研究成果,但由于训练细节披露不完整,复现高性能推理模型仍面临诸多挑战。本报告对推理模型进行了深入分析,系统性地涵盖了从数据准备、长链思维(long Chain-of-Thought)监督微调(long CoT SFT)到强化学习(RL)的完整后训练流程,并针对每个实验组件开展了详尽的消融研究。在 SFT 数据方面,我们的实验表明:少量高质量数据源的贡献优于大量多样化数据源,且在不进行准确率过滤的情况下,引入困难样本反而能获得更优结果。此外,我们深入探讨了当前强化学习中剪裁机制(clipping)存在的两个关键问题:剪裁机制会抑制关键的探索信号,并忽略次优轨迹。为应对上述挑战,我们提出一种新型策略优化方法——梯度保全剪裁策略优化(Gradient-Preserving Clipping Policy Optimization, GPPO),该方法能够对被剪裁的标记(token)实现平滑的梯度反向传播。GPPO 不仅显著增强了模型的探索能力,还提升了其从负样本中学习的效率。Klear-Reasoner 在数学与编程推理任务中展现出卓越的能力,在 AIME 2024 上取得 90.5% 的得分,AIME 2025 上达到 83.2%,LiveCodeBench V5 上为 66.0%,LiveCodeBench V6 上为 58.1%。