HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

MAPO : Optimisation politique à avantages mixtes

MAPO : Optimisation politique à avantages mixtes

Résumé

Les progrès récents de l’apprentissage par renforcement appliqué aux modèles fondamentaux, tels que l’Optimisation Politique Relative par Groupe (GRPO), ont considérablement amélioré les performances de ces modèles sur des tâches de raisonnement. En particulier, la fonction d’avantage joue un rôle central dans le GRPO en tant que mécanisme fondamental pour classer l’importance des trajectoires. Toutefois, les approches existantes souffrent à la fois du phénomène de réversion de l’avantage et du phénomène de miroir de l’avantage, qui entravent une attribution raisonnable de l’avantage entre différents échantillons de requêtes. Dans ce travail, nous proposons une stratégie GRPO simple mais efficace, appelée Optimisation Politique à Avantage Mixte (MAPO). Nous montrons que la certitude associée à une trajectoire varie selon les échantillons, et introduisons une mesure d’écart en pourcentage de l’avantage pour les échantillons présentant des trajectoires à haute certitude. Par ailleurs, nous réajustons dynamiquement les poids de la fonction d’avantage en fonction de la certitude des trajectoires, permettant ainsi une adaptation fine de cette fonction aux caractéristiques propres à chaque échantillon. Des comparaisons avec des méthodes de pointe récentes, ainsi que des études d’ablation sur différentes variantes de la fonction d’avantage, confirment l’efficacité de notre approche.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MAPO : Optimisation politique à avantages mixtes | Articles de recherche | HyperAI