Command Palette
Search for a command to run...
SPARK: 참조 없음 강화 학습을 위한 단계별 프로세스 인지 보상
SPARK: 참조 없음 강화 학습을 위한 단계별 프로세스 인지 보상
Salman Rahman Sruthi Gorantla Arpit Gupta Swastik Roy Nanyun Peng Yang Liu
초록
과정 보상 모델(PrM)은 단계별로 밀도 높은 피드백을 제공함으로써 강화 학습에서 희망을 보여주고 있으나, 높은 비용이 드는 단계별 레이블링 또는 진정한 기준(reference)이 필요하다는 점에서 그 적용은 제한적이다. 본 연구에서는 세 단계로 구성된 SPARK 프레임워크를 제안한다. 첫 번째 단계에서 생성 모델은 다양한 해법을 생성하고, 검증 모델은 병렬 확장(자기일관성, self-consistency)과 순차적 확장(메타비평, meta-critique)을 활용해 이를 평가한다. 두 번째 단계에서는 이러한 검증 출력을 합성 학습 데이터로 사용하여 생성 과정 보상 모델(generative process reward model)을 미세 조정(fine-tune)하고, 이후 학습 과정에서 이 모델을 보상 신호로 활용한다. 우리는 단계별로 다수의 독립적인 검증을 통합함으로써, 진정한 결과 지도(ground-truth outcome supervision)를 초월하는 과정 보상 모델 학습 데이터를 생성할 수 있음을 입증한다. 이로 인해 수학적 추론에서 오류 단계를 식별하는 기준인 ProcessBench에서 67.5의 F1 점수를 달성하였으며, 참고 기반 학습(66.4)과 GPT-4o 기반 학습(61.9)보다 우수한 성능을 보였다. 마지막 단계에서는 수학적 추론에서 강화 학습 실험에 대해 사고 과정 검증(chain-of-thought verification)을 갖춘 생성형 PRM(PRMs-CoT)을 보상 모델로 적용하고, 보상 해킹을 방지하기 위해 형식 제약을 도입한다. Qwen2.5-Math-7B 모델을 사용하여 여섯 개의 수학적 추론 벤치마크에서 평균 정확도 47.4%를 달성하였으며, 진정한 기준 기반의 RLVR(43.9%)를 초과하는 성능을 보였다. 본 연구는 진정한 기준이 없거나 접근이 어려운 분야에서도 가능성을 열어주는, 기준 없는 강화 학습 훈련 기법을 가능하게 하며, 새로운 연구 방향을 제시한다.