HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 13 jours

GVPO : Optimisation de la politique par variance de groupe pour le post-entraînement des grands modèles linguistiques

Kaichen Zhang Yuzhong Hong Junwei Bao Hongfei Jiang Yang Song Dingqian Hong Hui Xiong

GVPO : Optimisation de la politique par variance de groupe pour le post-entraînement des grands modèles linguistiques

Résumé

La post-formation joue un rôle essentiel dans le raffinement et l’alignement des grands modèles linguistiques afin de répondre à des tâches spécifiques et aux préférences humaines. Bien que les progrès récents dans les techniques de post-formation, tels que l’optimisation politique relative par groupe (GRPO), exploitent un échantillonnage accru avec une notation de récompense relative pour atteindre des performances supérieures, ces méthodes souffrent souvent d’une instabilité d’entraînement qui limite leur adoption pratique. À ce stade, nous proposons une nouvelle méthode, l’optimisation politique par variance de groupe (GVPO). GVPO intègre directement la solution analytique de la maximisation de la récompense sous contrainte de divergence de Kullback-Leibler (KL) dans les poids du gradient, garantissant ainsi un alignement avec la politique optimale. Cette approche offre des interprétations physiques intuitives : son gradient correspond à l’erreur quadratique moyenne entre la distance centrale des récompenses implicites et celle des récompenses réelles. GVPO présente deux avantages majeurs : (1) elle garantit une solution optimale unique, exactement égale à l’objectif de maximisation de la récompense sous contrainte de KL, (2) elle permet des distributions d’échantillonnage flexibles, évitant ainsi les limites des approches en politique actuelle (on-policy) et d’échantillonnage par importance. En unifiant garanties théoriques et adaptabilité pratique, GVPO établit un nouveau paradigme pour la post-formation fiable et polyvalente des grands modèles linguistiques.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GVPO : Optimisation de la politique par variance de groupe pour le post-entraînement des grands modèles linguistiques | Articles de recherche | HyperAI