HyperAIHyperAI

Command Palette

Search for a command to run...

vor 13 Tagen

GVPO: Gruppensvarianz-Richtlinien-Optimierung für die Nachschulung großer Sprachmodelle

Kaichen Zhang Yuzhong Hong Junwei Bao Hongfei Jiang Yang Song Dingqian Hong Hui Xiong

GVPO: Gruppensvarianz-Richtlinien-Optimierung für die Nachschulung großer Sprachmodelle

Abstract

Das Nachtraining spielt eine entscheidende Rolle bei der Feinabstimmung und Ausrichtung großer Sprachmodelle auf spezifische Aufgaben und menschliche Präferenzen. Obwohl neuere Fortschritte in Nachtrainingsmethoden, wie die Gruppen-Relative Policy Optimization (GRPO), durch erhöhte Stichprobengenerierung mit relativer Belohnungsbewertung eine überlegene Leistung erzielen, leiden diese Ansätze häufig unter Trainingsinstabilität, was ihre praktische Anwendung einschränkt. Als nächster Schritt präsentieren wir die Gruppen-Variance Policy Optimization (GVPO). GVPO integriert die analytische Lösung der KL-konstraierten Belohnungsoptimierung direkt in ihre Gradientengewichte und gewährleistet so eine Ausrichtung an die optimale Politik. Die Methode verfügt über eine intuitive physikalische Interpretation: ihr Gradient entspricht dem mittleren quadratischen Fehler zwischen der zentralen Distanz impliziter Belohnungen und der tatsächlichen Belohnungen. GVPO bietet zwei zentrale Vorteile: (1) Sie garantiert eine eindeutige optimale Lösung, die exakt dem Ziel der KL-konstraierten Belohnungsoptimierung entspricht, und (2) sie ermöglicht flexible Stichprobenverteilungen, wodurch die Einschränkungen von On-Policy- und Importance-Sampling vermieden werden. Durch die Vereinigung theoretischer Garantien mit praktischer Anpassungsfähigkeit etabliert GVPO ein neues Paradigma für zuverlässiges und vielseitiges Nachtraining großer Sprachmodelle.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
GVPO: Gruppensvarianz-Richtlinien-Optimierung für die Nachschulung großer Sprachmodelle | Forschungsarbeiten | HyperAI