5일 전

프로세스 마이닝을 활용한 추론 인지 GRPO

Taekhyun Park Yongjae Lee Hyerim Bae

초록

강화학습(Reinforcement Learning, RL) 기반의 사후 훈련은 대규모 추론 모델(Large Reasoning Models, LRMs)에서 다단계 추론을 가능하게 하는 데 핵심적인 역할을 해왔으나, 기존의 보상 체계는 일반적으로 결과 중심에 치중되어 있다. 본 연구에서는 추론 과정에 대한 인지 능력을 갖춘 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)인 PM4GRPO를 제안한다. 이는 기존의 정답 및 출력 형식에 대한 보상 외에 추론 절차에 대한 신호를 추가함으로써 모델의 추론 능력을 향상시킨다. 이를 위해 프로세스 마이닝 기법을 활용하여, 정책 모델의 추론이 사전 훈련된 트레이너 모델과 얼마나 일치하는지를 측정하는 스칼라형 일치도 보상(Conformance Reward)을 계산한다. 다섯 가지 벤치마크에서의 실험 결과는 PM4GRPO가 기존의 GRPO 기반 사후 훈련 방법들에 비해 뚜렷이 우수함을 보여준다. 이러한 결과는 프로세스 마이닝을 활용한 추론 인지형 GRPO가 정책 모델의 추론 능력을 효과적으로 향상시킬 수 있음을 시사한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

프로세스 마이닝을 활용한 추론 인지 GRPO

Taekhyun Park Yongjae Lee Hyerim Bae

초록

AI로 AI 구축

Hyper Newsletters