Command Palette
Search for a command to run...
Optimisation De La Stratégie De Variance De Groupe GVPO
L'optimisation de la politique de variance de groupe (GVPO) a été proposée par l'équipe Zuoyebang en collaboration avec l'Université des sciences et technologies de Hong Kong (Guangzhou) en avril 2025. Les résultats de recherche connexes ont été publiés dans l'article "...".GVPO : Optimisation de la politique de variance de groupe pour le post-entraînement de grands modèles de langage", a été accepté par NeurIPS 2025.
GVPO intègre directement la solution analytique de la maximisation de la récompense sous contrainte de Kullback-Leibler dans ses pondérations de gradient, garantissant ainsi la cohérence avec la politique optimale. Cette méthode offre une interprétation physique intuitive : son gradient reflète l’erreur quadratique moyenne entre la distance implicite au centre de récompense et la distance réelle à ce centre. GVPO présente deux avantages majeurs : premièrement, elle garantit une solution optimale unique, à savoir l’objectif de maximisation de la récompense sous contrainte de Kullback-Leibler ; deuxièmement, elle prend en charge des distributions d’échantillonnage flexibles, s’affranchissant des limitations imposées par l’échantillonnage de politique et d’importance.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.