HyperAIHyperAI

Command Palette

Search for a command to run...

Gruppenvarianzstrategieoptimierung (GVPO)

Date

vor 2 Monaten

Organization

Die Hong Kong University of Science and Technology (GuangZhou)

Paper URL

2504.19599

Die Gruppenvarianz-Richtlinienoptimierung (GVPO) wurde im April 2025 vom Team um Zuoyebang in Zusammenarbeit mit der Hong Kong University of Science and Technology (Guangzhou) vorgeschlagen. Die zugehörigen Forschungsergebnisse wurden in der Arbeit "..." veröffentlicht.GVPO: Gruppenvarianz-Richtlinienoptimierung für das Nachtraining großer Sprachmodelle", wurde von NeurIPS 2025 angenommen.

GVPO integriert die analytische Lösung für die KL-beschränkte Belohnungsmaximierung direkt in seine Gradientengewichte und gewährleistet so die Konsistenz mit der optimalen Strategie. Diese Methode bietet eine intuitive physikalische Interpretation: Ihr Gradient spiegelt den mittleren quadratischen Fehler zwischen der impliziten und der tatsächlichen Entfernung zum Belohnungszentrum wider. GVPO bietet zwei entscheidende Vorteile: Erstens garantiert es eine eindeutige optimale Lösung, nämlich die KL-beschränkte Belohnungsmaximierung; zweitens unterstützt es flexible Stichprobenverteilungen und vermeidet so die durch Strategie und Importance Sampling bedingten Einschränkungen.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp