HyperAIHyperAI

Command Palette

Search for a command to run...

MAPO : Optimisation politique à avantages mixtes

Résumé

Les progrès récents de l’apprentissage par renforcement appliqué aux modèles fondamentaux, tels que l’Optimisation Politique Relative par Groupe (GRPO), ont considérablement amélioré les performances de ces modèles sur des tâches de raisonnement. En particulier, la fonction d’avantage joue un rôle central dans le GRPO en tant que mécanisme fondamental pour classer l’importance des trajectoires. Toutefois, les approches existantes souffrent à la fois du phénomène de réversion de l’avantage et du phénomène de miroir de l’avantage, qui entravent une attribution raisonnable de l’avantage entre différents échantillons de requêtes. Dans ce travail, nous proposons une stratégie GRPO simple mais efficace, appelée Optimisation Politique à Avantage Mixte (MAPO). Nous montrons que la certitude associée à une trajectoire varie selon les échantillons, et introduisons une mesure d’écart en pourcentage de l’avantage pour les échantillons présentant des trajectoires à haute certitude. Par ailleurs, nous réajustons dynamiquement les poids de la fonction d’avantage en fonction de la certitude des trajectoires, permettant ainsi une adaptation fine de cette fonction aux caractéristiques propres à chaque échantillon. Des comparaisons avec des méthodes de pointe récentes, ainsi que des études d’ablation sur différentes variantes de la fonction d’avantage, confirment l’efficacité de notre approche.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MAPO : Optimisation politique à avantages mixtes | Articles | HyperAI