4일 전
그룹 시퀀스 정책 최적화
Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin

초록
이 논문은 대규모 언어 모델을 훈련시키기 위한 안정적이고 효율적이며 성능이 우수한 강화학습 알고리즘인 Group Sequence Policy Optimization (GSPO)을 소개합니다. 이전 알고리즘들이 토큰 단위의 중요도 비율을 사용하는 반면, GSPO는 시퀀스의 가능도 기반으로 중요도 비율을 정의하고, 시퀀스 단위의 클리핑, 보상, 최적화를 수행합니다. GSPO가 GRPO 알고리즘에 비해 훈련 효율성과 성능에서 우수함을 보여주며, 특히 Mixture-of-Experts (MoE) 강화학습 훈련을 안정화시키는 데 효과적임을 입증하였습니다. 또한, RL 인프라 설계를 간소화할 가능성을 가지고 있습니다. 이러한 GSPO의 장점은 최신 Qwen3 모델에서 놀라운 성능 향상에 기여하였습니다.