초록

과정 보상 모델(PrM)은 단계별로 밀도 높은 피드백을 제공함으로써 강화 학습에서 희망을 보여주고 있으나, 높은 비용이 드는 단계별 레이블링 또는 진정한 기준(reference)이 필요하다는 점에서 그 적용은 제한적이다. 본 연구에서는 세 단계로 구성된 SPARK 프레임워크를 제안한다. 첫 번째 단계에서 생성 모델은 다양한 해법을 생성하고, 검증 모델은 병렬 확장(자기일관성, self-consistency)과 순차적 확장(메타비평, meta-critique)을 활용해 이를 평가한다. 두 번째 단계에서는 이러한 검증 출력을 합성 학습 데이터로 사용하여 생성 과정 보상 모델(generative process reward model)을 미세 조정(fine-tune)하고, 이후 학습 과정에서 이 모델을 보상 신호로 활용한다. 우리는 단계별로 다수의 독립적인 검증을 통합함으로써, 진정한 결과 지도(ground-truth outcome supervision)를 초월하는 과정 보상 모델 학습 데이터를 생성할 수 있음을 입증한다. 이로 인해 수학적 추론에서 오류 단계를 식별하는 기준인 ProcessBench에서 67.5의 F1 점수를 달성하였으며, 참고 기반 학습(66.4)과 GPT-4o 기반 학습(61.9)보다 우수한 성능을 보였다. 마지막 단계에서는 수학적 추론에서 강화 학습 실험에 대해 사고 과정 검증(chain-of-thought verification)을 갖춘 생성형 PRM(PRMs-CoT)을 보상 모델로 적용하고, 보상 해킹을 방지하기 위해 형식 제약을 도입한다. Qwen2.5-Math-7B 모델을 사용하여 여섯 개의 수학적 추론 벤치마크에서 평균 정확도 47.4%를 달성하였으며, 진정한 기준 기반의 RLVR(43.9%)를 초과하는 성능을 보였다. 본 연구는 진정한 기준이 없거나 접근이 어려운 분야에서도 가능성을 열어주는, 기준 없는 강화 학습 훈련 기법을 가능하게 하며, 새로운 연구 방향을 제시한다.

소스 PDF