HyperAIHyperAI

Command Palette

Search for a command to run...

Gruppenvarianzstrategieoptimierung (GVPO)

Datum

vor 3 Monaten

Organisation

Die Hong Kong University of Science and Technology (GuangZhou)

Paper-URL

2504.19599

Die Gruppenvarianz-Richtlinienoptimierung (GVPO) wurde im April 2025 vom Team um Zuoyebang in Zusammenarbeit mit der Hong Kong University of Science and Technology (Guangzhou) vorgeschlagen. Die zugehörigen Forschungsergebnisse wurden in der Arbeit "..." veröffentlicht.GVPO: Gruppenvarianz-Richtlinienoptimierung für das Nachtraining großer Sprachmodelle", wurde von NeurIPS 2025 angenommen.

GVPO integriert die analytische Lösung für die KL-beschränkte Belohnungsmaximierung direkt in seine Gradientengewichte und gewährleistet so die Konsistenz mit der optimalen Strategie. Diese Methode bietet eine intuitive physikalische Interpretation: Ihr Gradient spiegelt den mittleren quadratischen Fehler zwischen der impliziten und der tatsächlichen Entfernung zum Belohnungszentrum wider. GVPO bietet zwei entscheidende Vorteile: Erstens garantiert es eine eindeutige optimale Lösung, nämlich die KL-beschränkte Belohnungsmaximierung; zweitens unterstützt es flexible Stichprobenverteilungen und vermeidet so die durch Strategie und Importance Sampling bedingten Einschränkungen.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp