클리어-리저너: 그래디언트 보존 클리핑 정책 최적화를 통한 추론 능력 향상

우리는 문제 해결 과정에서 신중한 사고를 보이는 장기 추론 능력을 갖춘 모델인 Klear-Reasoner를 제안한다. 이 모델은 다양한 벤치마크에서 뛰어난 성능을 달성하며, 높은 수준의 추론 능력을 입증한다. 현재 커뮤니티에서는 추론 모델과 관련된 우수한 연구들이 이미 다수 존재하지만, 훈련 세부 정보의 불완전한 공개로 인해 고성능 추론 모델의 재현이 여전히 어려운 문제가 있다. 본 보고서는 추론 모델에 대한 심층적인 분석을 제공하며, 데이터 준비부터 장기 체인 오브 써포트(Supervised Fine-Tuning, long CoT SFT)까지의 전후 훈련 워크플로우와 강화 학습(Reinforcement Learning, RL)에 이르기까지 전체 과정을 다루고, 각 실험 구성 요소에 대한 상세한 아블레이션 연구를 포함한다. SFT 데이터에 대한 실험 결과에 따르면, 다수의 다양한 데이터 소스보다 소수의 고품질 데이터 소스가 더 효과적이며, 정확도 필터링 없이도 어려운 샘플을 활용할 경우 더 나은 성능을 달성할 수 있음을 확인하였다. 또한, 현재 강화 학습에서 사용되는 클리핑 메커니즘의 두 가지 주요 문제점—즉, 중요한 탐색 신호를 억제하고, 비최적 경로를 무시한다—를 탐구하였다. 이러한 문제를 해결하기 위해, 클리핑된 토큰에서 그래디언트를 부드럽게 역전파하는 기법을 도입한 '그래디언트 보존 클리핑 정책 최적화(GPPO)'를 제안한다. GPPO는 모델의 탐색 능력을 향상시킬 뿐만 아니라, 부정적 샘플로부터의 학습 효율성도 개선한다. Klear-Reasoner는 수학 및 프로그래밍 분야에서 뛰어난 추론 능력을 보이며, AIME 2024에서 90.5%, AIME 2025에서 83.2%, LiveCodeBench V5에서 66.0%, LiveCodeBench V6에서 58.1%의 성과를 기록하였다.