HyperAIHyperAI

Command Palette

Search for a command to run...

Optimisation De La Stratégie De Variance De Groupe GVPO

Date

il y a 2 mois

Organization

Université des sciences et technologies de Hong Kong (GuangZhou)

Paper URL

2504.19599

L'optimisation de la politique de variance de groupe (GVPO) a été proposée par l'équipe Zuoyebang en collaboration avec l'Université des sciences et technologies de Hong Kong (Guangzhou) en avril 2025. Les résultats de recherche connexes ont été publiés dans l'article "...".GVPO : Optimisation de la politique de variance de groupe pour le post-entraînement de grands modèles de langage", a été accepté par NeurIPS 2025.

GVPO intègre directement la solution analytique de la maximisation de la récompense sous contrainte de Kullback-Leibler dans ses pondérations de gradient, garantissant ainsi la cohérence avec la politique optimale. Cette méthode offre une interprétation physique intuitive : son gradient reflète l’erreur quadratique moyenne entre la distance implicite au centre de récompense et la distance réelle à ce centre. GVPO présente deux avantages majeurs : premièrement, elle garantit une solution optimale unique, à savoir l’objectif de maximisation de la récompense sous contrainte de Kullback-Leibler ; deuxièmement, elle prend en charge des distributions d’échantillonnage flexibles, s’affranchissant des limitations imposées par l’échantillonnage de politique et d’importance.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp