Command Palette
Search for a command to run...
DCPO : Optimisation dynamique de la politique de découpage
Shihui Yang Chengfeng Dou Peidong Guo Kai Lu Qiang Ju Fei Deng Rihui Xin

Résumé
L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) s'est imposé comme un cadre prometteur pour améliorer les capacités de raisonnement des grands modèles linguistiques. Toutefois, les approches existantes, telles que GRPO, souffrent fréquemment de gradients nuls. Ce phénomène est principalement dû à des bornes de clipping fixes pour les rapports de probabilité au niveau des tokens, ainsi qu'à la standardisation de récompenses identiques, ce qui peut entraîner des mises à jour de gradients inefficaces et une utilisation insuffisante des réponses générées. Dans ce travail, nous proposons Dynamic Clipping Policy Optimization (DCPO), une méthode introduisant une stratégie de clipping dynamique qui ajuste adaptativement les bornes de clipping en fonction des probabilités a priori spécifiques aux tokens, afin d'améliorer l'exploration au niveau des tokens, ainsi qu'une technique de standardisation douce de l'avantage, qui standardise les récompenses sur l'ensemble des étapes d'entraînement cumulées, pour renforcer l'efficacité de l'utilisation des réponses générées au niveau global. DCPO atteint des performances de pointe sur quatre benchmarks, fondés sur quatre modèles différents. En particulier, sur le benchmark AIME24, DCPO obtient un Avg@1 de 46,7 avec un décodage glouton et un Avg@32 de 38,8 avec un échantillonnage 32 fois, surpassant à la fois DAPO (36,7 / 31,6) et GRPO (36,7 / 32,1) sur le modèle Qwen2.5-Math-7B. Sur le benchmark AIME25 basé sur Qwen2.5-14B, DCPO atteint des performances de (23,3 / 19,0), dépassant GRPO (13,3 / 10,5) et DAPO (20,0 / 15,3). De plus, DCPO réalise une amélioration moyenne de 28 % sur l'avantage non nul par rapport à GRPO sur quatre modèles, double l'efficacité d'entraînement par rapport à DAPO, et réduit de plus d'un ordre de grandeur le taux de clipping des tokens par rapport à la fois à GRPO et à DAPO, tout en obtenant des performances supérieures. Ces résultats mettent en évidence l'efficacité de DCPO pour exploiter de manière plus efficace les données générées dans le cadre de l'apprentissage par renforcement des grands modèles linguistiques.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.