HyperAIHyperAI

Command Palette

Search for a command to run...

Console
il y a 4 jours

Optimisation de politique douce adaptative

Chang Gao Chujie Zheng Xiong-Hui Chen Kai Dang Shixuan Liu Bowen Yu An Yang Shuai Bai Jingren Zhou Junyang Lin

Optimisation de politique douce adaptative

Résumé

L’apprentissage par renforcement (RL) joue un rôle de plus en plus important dans l’amélioration des capacités de raisonnement des grands modèles linguistiques (LLM), mais l’optimisation stable et performante des politiques reste un défi. Les rapports d’importance au niveau des tokens présentent souvent une variance élevée – un phénomène qui s’aggrave dans les modèles Mixture-of-Experts – entraînant des mises à jour instables. Les méthodes d’optimisation de politique basées sur le regroupement, telles que GSPO et GRPO, atténuent ce problème par un clipage dur, ce qui rend difficile le maintien à la fois de la stabilité et d’un apprentissage efficace. Nous proposons une nouvelle approche, nommée Soft Adaptive Policy Optimization (SAPO), qui remplace le clipage dur par une porte lisse contrôlée par une température, adaptative, qui atténue de manière dynamique les mises à jour hors politique tout en préservant les signaux d’apprentissage utiles. Contrairement à GSPO et GRPO, SAPO est à la fois cohérente au niveau de la séquence et adaptative au niveau du token. Comme GSPO, SAPO préserve la cohérence au niveau de la séquence, mais sa porte douce établit une région de confiance continue, évitant ainsi la bande de clipage rigide utilisée dans GSPO. Lorsqu’une séquence contient quelques tokens fortement hors politique, GSPO supprime tous les gradients pour cette séquence, tandis que SAPO ne réduit que de manière sélective les poids des tokens problématiques, tout en préservant le signal d’apprentissage des tokens proches de la politique. Cela améliore l’efficacité en échantillonnage. Par rapport à GRPO, SAPO remplace le clipage dur au niveau du token par une mise à l’échelle lisse et contrôlée par la température, permettant des mises à jour plus informatives et plus stables. Les résultats expérimentaux sur des benchmarks de raisonnement mathématique montrent que SAPO améliore la stabilité d’entraînement et atteint un meilleur score Pass@1 sous un budget d’entraînement comparable. En outre, nous avons appliqué SAPO à l’entraînement de la série de modèles Qwen3-VL, démontrant que SAPO permet des gains de performance constants sur une large variété de tâches et pour différentes tailles de modèles. Globalement, SAPO constitue une stratégie d’optimisation plus fiable, évolutive et efficace pour l’entraînement par renforcement des LLM.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Optimisation de politique douce adaptative | Articles de recherche | HyperAI