Command Palette
Search for a command to run...
Runzhe Zhan Yafu Li Zhi Wang Xiaoye Qu Dongrui Liu Jing Shao Derek F. Wong Yu Cheng

초록
검증 가능한 보상에 기반한 강화학습(RLVR)은 대규모 언어 모델의 추론 능력을 향상시키기 위한 등장하는 패러다임이다. 그러나 기존의 온폴리시(on-policy) 학습 방식은 한 번의 업데이트 후 롤아웃(rollout) 경험을 폐기하기 때문에 계산 효율성이 낮고 학습이 불안정해지는 문제가 있다. 기존 강화학습 연구에서는 과거 경험을 재사용하는 이점이 강조되어 왔으나, 경험의 특성들이 대규모 추론 모델의 학습 역학에 미치는 영향은 여전히 탐색이 부족한 영역이다. 본 논문에서는 처음으로 어떤 추론 경험의 가치가 있는지를 규명하고, 롤아웃의 정확도와 엔트로피(entropy)가 경험의 가치를 효과적으로 나타내는 지표임을 식별한다. 이러한 통찰을 바탕으로, 유용한 경험을 체계적으로 정리하고 우선순위를 부여하며, 탐색과 경험 활용 사이의 균형을 유지하기 위해 혼합 정책(mixed-policy) 목적 함수를 도입한 ExGRPO(Experiential Group Relative Policy Optimization) 프레임워크를 제안한다. 1.5B~8B 파라미터 규모의 다섯 가지 기반 모델에 대한 실험 결과, ExGRPO는 수학 및 일반 추론 벤치마크에서 일관되게 추론 성능을 향상시키며, 온폴리시 RLVR 대비 평균 +3.5점(수학) 및 +7.6점(일반)의 성능 향상을 기록한다. 더불어, 기존 온폴리시 방법이 실패하는 강력한 모델과 약한 모델 모두에서 ExGRPO는 학습을 안정화시킨다. 이러한 결과는 효율적이고 확장 가능한 RLVR를 위한 핵심 요소로 체계적인 경험 관리가 중요함을 시사한다.