HyperAI超神经

摘要

本文介绍了群体序列策略优化（Group Sequence Policy Optimization，GSPO），这是一种稳定、高效且性能优越的强化学习算法，用于训练大语言模型。与以往采用基于token的重要性比率的算法不同，GSPO基于序列似然性定义重要性比率，并进行序列级别的裁剪（clipping）、奖励（rewarding）和优化（optimization）。我们证明，与GRPO算法相比，GSPO在训练效率和性能方面表现出色，尤其在稳定混合专家（Mixture-of-Experts，MoE）强化学习训练方面效果显著，并有望简化强化学习基础设施的设计。GSPO的这些优势为最新版Qwen3模型带来了显著的性能提升。

摘要

Chujie Zheng Shixuan Liu Mingze Li Xiong-Hui Chen Bowen Yu Chang Gao Kai Dang Yuqiong Liu Rui Men An Yang

摘要

用 AI 构建 AI

HyperAI Newsletters

Chujie Zheng Shixuan Liu Mingze Li Xiong-Hui Chen Bowen Yu Chang Gao Kai Dang Yuqiong Liu Rui Men An Yang

摘要

用 AI 构建 AI

HyperAI Newsletters

Chujie Zheng Shixuan Liu Mingze Li Xiong-Hui Chen Bowen Yu Chang Gao Kai Dang Yuqiong Liu Rui Men An Yang

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

组序列策略优化

Chujie Zheng Shixuan Liu Mingze Li Xiong-Hui Chen Bowen Yu Chang Gao Kai Dang Yuqiong Liu Rui Men An Yang2 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

组序列策略优化

Chujie Zheng Shixuan Liu Mingze Li Xiong-Hui Chen Bowen Yu Chang Gao Kai Dang Yuqiong Liu Rui Men An Yang2 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

组序列策略优化

Chujie Zheng Shixuan Liu Mingze Li Xiong-Hui Chen Bowen Yu Chang Gao Kai Dang Yuqiong Liu Rui Men An Yang2 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Chujie Zheng Shixuan Liu Mingze Li Xiong-Hui Chen Bowen Yu Chang Gao Kai Dang Yuqiong Liu Rui Men An Yang

Chujie Zheng Shixuan Liu Mingze Li Xiong-Hui Chen Bowen Yu Chang Gao Kai Dang Yuqiong Liu Rui Men An Yang

Chujie Zheng Shixuan Liu Mingze Li Xiong-Hui Chen Bowen Yu Chang Gao Kai Dang Yuqiong Liu Rui Men An Yang