Command Palette
Search for a command to run...

Résumé
Les progrès récents de l’apprentissage par renforcement appliqué aux modèles fondamentaux, tels que l’Optimisation Politique Relative par Groupe (GRPO), ont considérablement amélioré les performances de ces modèles sur des tâches de raisonnement. En particulier, la fonction d’avantage joue un rôle central dans le GRPO en tant que mécanisme fondamental pour classer l’importance des trajectoires. Toutefois, les approches existantes souffrent à la fois du phénomène de réversion de l’avantage et du phénomène de miroir de l’avantage, qui entravent une attribution raisonnable de l’avantage entre différents échantillons de requêtes. Dans ce travail, nous proposons une stratégie GRPO simple mais efficace, appelée Optimisation Politique à Avantage Mixte (MAPO). Nous montrons que la certitude associée à une trajectoire varie selon les échantillons, et introduisons une mesure d’écart en pourcentage de l’avantage pour les échantillons présentant des trajectoires à haute certitude. Par ailleurs, nous réajustons dynamiquement les poids de la fonction d’avantage en fonction de la certitude des trajectoires, permettant ainsi une adaptation fine de cette fonction aux caractéristiques propres à chaque échantillon. Des comparaisons avec des méthodes de pointe récentes, ainsi que des études d’ablation sur différentes variantes de la fonction d’avantage, confirment l’efficacité de notre approche.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.