il y a un mois

MAPO : Optimisation politique à avantages mixtes

Wenke Huang Quan Zhang Yiyang Fang Jian Liang Xuankun Rong Huanjin Yao Guancheng Wan Ke Liang Wenwen He Mingjun Li

Résumé

Les progrès récents de l’apprentissage par renforcement appliqué aux modèles fondamentaux, tels que l’Optimisation Politique Relative par Groupe (GRPO), ont considérablement amélioré les performances de ces modèles sur des tâches de raisonnement. En particulier, la fonction d’avantage joue un rôle central dans le GRPO en tant que mécanisme fondamental pour classer l’importance des trajectoires. Toutefois, les approches existantes souffrent à la fois du phénomène de réversion de l’avantage et du phénomène de miroir de l’avantage, qui entravent une attribution raisonnable de l’avantage entre différents échantillons de requêtes. Dans ce travail, nous proposons une stratégie GRPO simple mais efficace, appelée Optimisation Politique à Avantage Mixte (MAPO). Nous montrons que la certitude associée à une trajectoire varie selon les échantillons, et introduisons une mesure d’écart en pourcentage de l’avantage pour les échantillons présentant des trajectoires à haute certitude. Par ailleurs, nous réajustons dynamiquement les poids de la fonction d’avantage en fonction de la certitude des trajectoires, permettant ainsi une adaptation fine de cette fonction aux caractéristiques propres à chaque échantillon. Des comparaisons avec des méthodes de pointe récentes, ainsi que des études d’ablation sur différentes variantes de la fonction d’avantage, confirment l’efficacité de notre approche.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

MAPO : Optimisation politique à avantages mixtes

Wenke Huang Quan Zhang Yiyang Fang Jian Liang Xuankun Rong Huanjin Yao Guancheng Wan Ke Liang Wenwen He Mingjun Li4 more

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Wenke Huang Quan Zhang Yiyang Fang Jian Liang Xuankun Rong Huanjin Yao Guancheng Wan Ke Liang Wenwen He Mingjun Li