Command Palette
Search for a command to run...
GVPO: Gruppensvarianz-Richtlinien-Optimierung für die Nachschulung großer Sprachmodelle
GVPO: Gruppensvarianz-Richtlinien-Optimierung für die Nachschulung großer Sprachmodelle
Kaichen Zhang Yuzhong Hong Junwei Bao Hongfei Jiang Yang Song Dingqian Hong Hui Xiong
Zusammenfassung
Das Nachtraining spielt eine entscheidende Rolle bei der Feinabstimmung und Ausrichtung großer Sprachmodelle auf spezifische Aufgaben und menschliche Präferenzen. Obwohl neuere Fortschritte in Nachtrainingsmethoden, wie die Gruppen-Relative Policy Optimization (GRPO), durch erhöhte Stichprobengenerierung mit relativer Belohnungsbewertung eine überlegene Leistung erzielen, leiden diese Ansätze häufig unter Trainingsinstabilität, was ihre praktische Anwendung einschränkt. Als nächster Schritt präsentieren wir die Gruppen-Variance Policy Optimization (GVPO). GVPO integriert die analytische Lösung der KL-konstraierten Belohnungsoptimierung direkt in ihre Gradientengewichte und gewährleistet so eine Ausrichtung an die optimale Politik. Die Methode verfügt über eine intuitive physikalische Interpretation: ihr Gradient entspricht dem mittleren quadratischen Fehler zwischen der zentralen Distanz impliziter Belohnungen und der tatsächlichen Belohnungen. GVPO bietet zwei zentrale Vorteile: (1) Sie garantiert eine eindeutige optimale Lösung, die exakt dem Ziel der KL-konstraierten Belohnungsoptimierung entspricht, und (2) sie ermöglicht flexible Stichprobenverteilungen, wodurch die Einschränkungen von On-Policy- und Importance-Sampling vermieden werden. Durch die Vereinigung theoretischer Garantien mit praktischer Anpassungsfähigkeit etabliert GVPO ein neues Paradigma für zuverlässiges und vielseitiges Nachtraining großer Sprachmodelle.