
本稿では、問題解決プロセスにおいて慎重な検討を示す長時間推論能力を備えたモデル「Klear-Reasoner」を紹介する。本モデルは、複数のベンチマークにおいて優れた性能を達成している。現在のコミュニティにはすでに多数の優れた推論モデルに関する研究が存在するが、訓練に関する詳細情報の不完全な公開により、高性能な推論モデルの再現が依然として困難な状況にある。本報告では、推論モデルの包括的な分析を提供し、データ準備から長文のChain-of-Thought教師あり微調整(long CoT SFT)までを含む、後期訓練プロセス全体を詳細に解説する。さらに、各実験部品に対する詳細なアブレーションスタディも実施している。SFTデータに関しては、多数の多様なデータソースよりも少数の高品質なデータソースがより効果的であることを実験的に示した。また、精度フィルタリングを行わずに難易度の高いサンプルを用いることで、より良い結果が得られることも明らかにした。さらに、現在の強化学習(RL)におけるクリッピング機構に関する2つの重要な課題を検討した。すなわち、クリッピングは重要な探索信号を抑制し、劣化した軌道(suboptimal trajectories)を無視するという問題である。これらの課題に対処するため、クリッピングされたトークンから勾配を穏やかに逆伝播させる「勾配保存型クリッピング方策最適化(Gradient-Preserving clipping Policy Optimization: GPPO)」を提案する。GPPOは、モデルの探索能力を向上させるだけでなく、負例からの学習効率も向上させる。Klear-Reasonerは、数学およびプログラミング分野において優れた推論能力を発揮し、AIME 2024では90.5%、AIME 2025では83.2%、LiveCodeBench V5では66.0%、LiveCodeBench V6では58.1%のスコアを記録した。