RL-PLUS: 하이브리드 정책 최적화를 통한 강화학습에서 LLM의 능력 경계 붕괴 방지

검증 가능한 보상과 함께하는 강화학습(RLVR, Reinforcement Learning with Verifiable Reward)은 대규모 언어 모델(LLM, Large Language Models)의 복잡한 추론 능력을 크게 향상시켰다. 그러나 LLM의 막대한 행동 공간과 희박한 보상 구조를 고려할 때, RLVR는 본질적으로 온폴리시(on-policy) 전략을 채택하고 있어 기반 LLM의 내재적 능력 한계를 극복하기 어려운 문제가 있다. 또한, RLVR는 모델의 능력 한계 붕괴(capability boundary collapse)를 유발할 수 있으며, 이로 인해 LLM의 문제 해결 범위가 좁아질 수 있다. 이러한 문제를 해결하기 위해 우리는 내부 탐색(즉, 사고)과 외부 데이터(즉, 학습)를 융합하는 새로운 접근법인 RL-PLUS를 제안한다. 이 방법을 통해 기반 모델의 한계를 넘어서는 강력한 추론 능력을 달성할 수 있다. RL-PLUS는 두 가지 핵심 구성 요소를 통합한다. 첫째, 외부 데이터로부터 발생하는 분포 불일치(distributional mismatch)를 해결하기 위한 다중 중요도 샘플링(Multiple Importance Sampling)이며, 둘째, 높은 가치를 지닌 탐색되지 않은 추론 경로를 모델이 탐색하도록 유도하는 탐색 기반의 보상 함수(Exploration-Based Advantage Function)이다. 본 연구는 이론적 분석과 광범위한 실험을 통해 제안한 방법의 우수성과 일반화 가능성을 입증한다. 실험 결과, RL-PLUS는 여섯 가지 수학 추론 벤치마크에서 기존의 RLVR 방법들에 비해 최고 성능을 기록하였으며, 분포 외 추론 과제(six out-of-distribution reasoning tasks)에서도 뛰어난 성능을 보였다. 또한 다양한 모델 패밀리에 걸쳐 일관되고 유의미한 성능 향상이 나타났으며, 평균 상대적 개선률은 21.1%에서 69.2%까지 기록되었다. 더불어, 여러 벤치마크에서의 Pass@k 곡선 분석 결과, RL-PLUS가 능력 한계 붕괴 문제를 효과적으로 해결함을 확인할 수 있었다.