HyperAI超神经
4 days ago

组序列策略优化

Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin
组序列策略优化
摘要

本文介绍了群体序列策略优化(Group Sequence Policy Optimization,GSPO),这是一种稳定、高效且性能优越的强化学习算法,用于训练大语言模型。与以往采用基于token的重要性比率的算法不同,GSPO基于序列似然性定义重要性比率,并进行序列级别的裁剪(clipping)、奖励(rewarding)和优化(optimization)。我们证明,与GRPO算法相比,GSPO在训练效率和性能方面表现出色,尤其在稳定混合专家(Mixture-of-Experts,MoE)强化学习训练方面效果显著,并有望简化强化学习基础设施的设计。GSPO的这些优势为最新版Qwen3模型带来了显著的性能提升。