HyperAIHyperAI

Command Palette

Search for a command to run...

グループシーケンスポリシーオプティマイゼーション

概要

本論文では、大規模言語モデルのトレーニングに向けた安定性・効率性・性能に優れた強化学習アルゴリズムとして、Group Sequence Policy Optimization(GSPO)を紹介します。従来のアルゴリズムがトークンレベルでの重要度比(importance ratio)を採用しているのに対し、GSPOはシーケンスの尤度(likelihood)に基づいて重要度比を定義し、シーケンスレベルでのクリッピング(clipping)、報酬(rewarding)、最適化(optimization)を実行します。GSPOがGRPOアルゴリズムと比較して優れたトレーニング効率と性能を達成し、特にMixture-of-Experts(MoE)の強化学習(RL)トレーニングを安定化させることに成功したことを実証しました。また、RLインフラの設計を簡素化する可能性も備えています。これらの利点により、GSPOは最新のQwen3モデルにおける顕著な性能向上に寄与しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
グループシーケンスポリシーオプティマイゼーション | 記事 | HyperAI超神経