Command Palette
Search for a command to run...
Gruppenvarianzstrategieoptimierung (GVPO)
Die Gruppenvarianz-Richtlinienoptimierung (GVPO) wurde im April 2025 vom Team um Zuoyebang in Zusammenarbeit mit der Hong Kong University of Science and Technology (Guangzhou) vorgeschlagen. Die zugehörigen Forschungsergebnisse wurden in der Arbeit "..." veröffentlicht.GVPO: Gruppenvarianz-Richtlinienoptimierung für das Nachtraining großer Sprachmodelle", wurde von NeurIPS 2025 angenommen.
GVPO integriert die analytische Lösung für die KL-beschränkte Belohnungsmaximierung direkt in seine Gradientengewichte und gewährleistet so die Konsistenz mit der optimalen Strategie. Diese Methode bietet eine intuitive physikalische Interpretation: Ihr Gradient spiegelt den mittleren quadratischen Fehler zwischen der impliziten und der tatsächlichen Entfernung zum Belohnungszentrum wider. GVPO bietet zwei entscheidende Vorteile: Erstens garantiert es eine eindeutige optimale Lösung, nämlich die KL-beschränkte Belohnungsmaximierung; zweitens unterstützt es flexible Stichprobenverteilungen und vermeidet so die durch Strategie und Importance Sampling bedingten Einschränkungen.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.