Command Palette
Search for a command to run...
Taekhyun Park Yongjae Lee Hyerim Bae

초록
강화학습(Reinforcement Learning, RL) 기반의 사후 훈련은 대규모 추론 모델(Large Reasoning Models, LRMs)에서 다단계 추론을 가능하게 하는 데 핵심적인 역할을 해왔으나, 기존의 보상 체계는 일반적으로 결과 중심에 치중되어 있다. 본 연구에서는 추론 과정에 대한 인지 능력을 갖춘 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)인 PM4GRPO를 제안한다. 이는 기존의 정답 및 출력 형식에 대한 보상 외에 추론 절차에 대한 신호를 추가함으로써 모델의 추론 능력을 향상시킨다. 이를 위해 프로세스 마이닝 기법을 활용하여, 정책 모델의 추론이 사전 훈련된 트레이너 모델과 얼마나 일치하는지를 측정하는 스칼라형 일치도 보상(Conformance Reward)을 계산한다. 다섯 가지 벤치마크에서의 실험 결과는 PM4GRPO가 기존의 GRPO 기반 사후 훈련 방법들에 비해 뚜렷이 우수함을 보여준다. 이러한 결과는 프로세스 마이닝을 활용한 추론 인지형 GRPO가 정책 모델의 추론 능력을 효과적으로 향상시킬 수 있음을 시사한다.