HyperAIHyperAI

Command Palette

Search for a command to run...

GVPO : Optimisation de la politique par variance de groupe pour le post-entraînement des grands modèles linguistiques

Kaichen Zhang Yuzhong Hong Junwei Bao Hongfei Jiang Yang Song Dingqian Hong Hui Xiong

Résumé

La post-formation joue un rôle essentiel dans le raffinement et l’alignement des grands modèles linguistiques afin de répondre à des tâches spécifiques et aux préférences humaines. Bien que les progrès récents dans les techniques de post-formation, tels que l’optimisation politique relative par groupe (GRPO), exploitent un échantillonnage accru avec une notation de récompense relative pour atteindre des performances supérieures, ces méthodes souffrent souvent d’une instabilité d’entraînement qui limite leur adoption pratique. À ce stade, nous proposons une nouvelle méthode, l’optimisation politique par variance de groupe (GVPO). GVPO intègre directement la solution analytique de la maximisation de la récompense sous contrainte de divergence de Kullback-Leibler (KL) dans les poids du gradient, garantissant ainsi un alignement avec la politique optimale. Cette approche offre des interprétations physiques intuitives : son gradient correspond à l’erreur quadratique moyenne entre la distance centrale des récompenses implicites et celle des récompenses réelles. GVPO présente deux avantages majeurs : (1) elle garantit une solution optimale unique, exactement égale à l’objectif de maximisation de la récompense sous contrainte de KL, (2) elle permet des distributions d’échantillonnage flexibles, évitant ainsi les limites des approches en politique actuelle (on-policy) et d’échantillonnage par importance. En unifiant garanties théoriques et adaptabilité pratique, GVPO établit un nouveau paradigme pour la post-formation fiable et polyvalente des grands modèles linguistiques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GVPO : Optimisation de la politique par variance de groupe pour le post-entraînement des grands modèles linguistiques | Articles | HyperAI