HyperAI
vor 4 Tagen

Gruppenfolgepolitik-Optimierung

Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin
Gruppenfolgepolitik-Optimierung
Abstract

Dieser Artikel stellt Group Sequence Policy Optimization (GSPO) vor, unseren stabilen, effizienten und leistungsstarken Algorithmus für das Verstärkende Lernen zum Trainieren großer Sprachmodelle. Im Gegensatz zu früheren Algorithmen, die Importance Ratios auf Token-Ebene verwenden, definiert GSPO das Importance Ratio basierend auf der Sequenz-Wahrscheinlichkeit und führt sequenzbasierte Clipping-, Belohnungs- und Optimierungsverfahren durch. Wir zeigen, dass GSPO eine überlegene Trainingseffizienz und -leistung im Vergleich zum GRPO-Algorithmus erreicht, insbesondere die Stabilisierung des Mixture-of-Experts (MoE)-RL-Trainings ermöglicht und das Design von RL-Infrastrukturen vereinfachen kann. Diese Vorteile von GSPO haben zu bemerkenswerten Verbesserungen in den neuesten Qwen3-Modellen beigetragen.