Command Palette
Search for a command to run...
GVPO : Optimisation de la politique par variance de groupe pour le post-entraînement des grands modèles linguistiques
Kaichen Zhang Yuzhong Hong Junwei Bao Hongfei Jiang Yang Song Dingqian Hong Hui Xiong

Résumé
La post-formation joue un rôle essentiel dans le raffinement et l’alignement des grands modèles linguistiques afin de répondre à des tâches spécifiques et aux préférences humaines. Bien que les progrès récents dans les techniques de post-formation, tels que l’optimisation politique relative par groupe (GRPO), exploitent un échantillonnage accru avec une notation de récompense relative pour atteindre des performances supérieures, ces méthodes souffrent souvent d’une instabilité d’entraînement qui limite leur adoption pratique. À ce stade, nous proposons une nouvelle méthode, l’optimisation politique par variance de groupe (GVPO). GVPO intègre directement la solution analytique de la maximisation de la récompense sous contrainte de divergence de Kullback-Leibler (KL) dans les poids du gradient, garantissant ainsi un alignement avec la politique optimale. Cette approche offre des interprétations physiques intuitives : son gradient correspond à l’erreur quadratique moyenne entre la distance centrale des récompenses implicites et celle des récompenses réelles. GVPO présente deux avantages majeurs : (1) elle garantit une solution optimale unique, exactement égale à l’objectif de maximisation de la récompense sous contrainte de KL, (2) elle permet des distributions d’échantillonnage flexibles, évitant ainsi les limites des approches en politique actuelle (on-policy) et d’échantillonnage par importance. En unifiant garanties théoriques et adaptabilité pratique, GVPO établit un nouveau paradigme pour la post-formation fiable et polyvalente des grands modèles linguistiques.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.