초록

이 논문은 대규모 언어 모델을 활용한 강화학습(RL)을 위한 새로운 공식을 제안하며, REINFORCE와 같은 정책 그래디언트 방법에서 서브스티튜트 토큰 수준 목적함수를 통해 진정한 시퀀스 수준 보상이 언제 그리고 왜 최적화될 수 있는지를 설명한다. 구체적으로 1차 근사에 기반하여, 이 서브스티튜트 목적함수가 훈련-추론 차이와 정책 정체(정책의 오래됨)가 동시에 최소화될 때에만 점점 더 타당해짐을 보여준다. 이러한 통찰은 RL 훈련 안정화에 핵심적인 역할을 하는 여러 일반적으로 채택되는 기법들—예를 들어 중요도 샘플링 보정, 클리핑, 그리고 특히 믹스처 오브 익스퍼트(MoE) 모델에 적용되는 라우팅 리플레이(Routing Replay)—에 대해 체계적인 설명을 제공한다. 300억 파라미터 규모의 MoE 모델을 활용한 방대한 실험(수십만 시간 이상의 GPU 훈련 시간을 포함)을 통해, 온폴리시(On-policy) 훈련에서는 중요도 샘플링 보정을 적용한 기본 정책 그래디언트 알고리즘이 가장 높은 훈련 안정성을 보임을 확인하였다. 오프폴리시(Off-policy) 업데이트를 도입하여 수렴 속도를 가속화할 경우, 정책 정체로 인한 불안정성을 완화하기 위해 클리핑과 라우팅 리플레이를 병행하는 것이 필수적임을 확인하였다. 특히 훈련이 안정화된 이후에는 냉시작 초기화 방식에 관계없이 장기간 최적화를 수행할 경우 일관되게 유사한 최종 성능을 달성함을 관찰하였다. 본 연구에서 제시한 통찰과 안정적인 RL 훈련을 위한 개발된 전략들이 향후 연구에 기여하기를 기대한다.

소스 PDF