GVPO: Gruppensvarianz-Richtlinien-Optimierung für die Nachschulung großer Sprachmodelle
Kaichen Zhang Yuzhong Hong Junwei Bao Hongfei Jiang Yang Song Dingqian Hong Hui Xiong

Abstract
Das Nachtraining spielt eine entscheidende Rolle bei der Feinabstimmung und Ausrichtung großer Sprachmodelle auf spezifische Aufgaben und menschliche Präferenzen. Obwohl neuere Fortschritte in Nachtrainingsmethoden, wie die Gruppen-Relative Policy Optimization (GRPO), durch erhöhte Stichprobengenerierung mit relativer Belohnungsbewertung eine überlegene Leistung erzielen, leiden diese Ansätze häufig unter Trainingsinstabilität, was ihre praktische Anwendung einschränkt. Als nächster Schritt präsentieren wir die Gruppen-Variance Policy Optimization (GVPO). GVPO integriert die analytische Lösung der KL-konstraierten Belohnungsoptimierung direkt in ihre Gradientengewichte und gewährleistet so eine Ausrichtung an die optimale Politik. Die Methode verfügt über eine intuitive physikalische Interpretation: ihr Gradient entspricht dem mittleren quadratischen Fehler zwischen der zentralen Distanz impliziter Belohnungen und der tatsächlichen Belohnungen. GVPO bietet zwei zentrale Vorteile: (1) Sie garantiert eine eindeutige optimale Lösung, die exakt dem Ziel der KL-konstraierten Belohnungsoptimierung entspricht, und (2) sie ermöglicht flexible Stichprobenverteilungen, wodurch die Einschränkungen von On-Policy- und Importance-Sampling vermieden werden. Durch die Vereinigung theoretischer Garantien mit praktischer Anpassungsfähigkeit etabliert GVPO ein neues Paradigma für zuverlässiges und vielseitiges Nachtraining großer Sprachmodelle.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.