Command Palette
Search for a command to run...
グループシーケンスポリシーオプティマイゼーション
グループシーケンスポリシーオプティマイゼーション
概要
本論文では、大規模言語モデルのトレーニングに向けた安定性・効率性・性能に優れた強化学習アルゴリズムとして、Group Sequence Policy Optimization(GSPO)を紹介します。従来のアルゴリズムがトークンレベルでの重要度比(importance ratio)を採用しているのに対し、GSPOはシーケンスの尤度(likelihood)に基づいて重要度比を定義し、シーケンスレベルでのクリッピング(clipping)、報酬(rewarding)、最適化(optimization)を実行します。GSPOがGRPOアルゴリズムと比較して優れたトレーニング効率と性能を達成し、特にMixture-of-Experts(MoE)の強化学習(RL)トレーニングを安定化させることに成功したことを実証しました。また、RLインフラの設計を簡素化する可能性も備えています。これらの利点により、GSPOは最新のQwen3モデルにおける顕著な性能向上に寄与しています。