HyperAI

La récente réussite et la transparence de DeepSeek-R1 ont attiré une large attention sur l’optimisation politique relative par groupe (GRPO), une méthode d’apprentissage par renforcement destinée aux grands modèles de raisonnement (LRM). Dans ce travail, nous analysons l’objectif GRPO dans un cadre à récompense binaire et mettons en évidence une limitation intrinsèque liée au biais de difficulté au niveau des questions. Nous identifions également un lien entre GRPO et les méthodes discriminatives classiques de l’apprentissage supervisé. Inspirés par ces observations, nous proposons un nouveau cadre d’optimisation contrainte discriminative, nommé DisCO, conçu pour renforcer les LRMs selon le principe fondamental de l’apprentissage discriminatif. Les principales différences entre DisCO et GRPO ainsi que ses variantes récentes sont les suivantes : (1) il remplace l’objectif relatif par groupe par un objectif discriminatif défini à partir d’une fonction de notation ; (2) il abandonne les approximations basées sur le clipping au profit d’objectifs de substitution en apprentissage par renforcement sans clipping, utilisés comme fonctions de notation ; (3) il adopte une approche simple mais efficace d’optimisation contrainte pour imposer la contrainte sur la divergence de Kullback-Leibler (KL). En conséquence, DisCO présente des avantages significatifs par rapport à GRPO et à ses variantes : (i) il élimine complètement le biais de difficulté grâce à l’utilisation d’objectifs discriminatifs ; (ii) il résout le problème d’instabilité de l’entropie observé dans GRPO et ses variantes, grâce à l’emploi de fonctions de notation sans clipping et à une approche d’optimisation contrainte, conduisant à des dynamiques d’entraînement longues et stables ; (iii) il permet l’intégration de techniques avancées d’apprentissage discriminatif afin de traiter l’imprégnation des données, notamment lorsque, pendant l’entraînement, un grand nombre de questions génèrent davantage de réponses négatives que positives. Nos expériences visant à améliorer les capacités de raisonnement mathématique des modèles pré-entraînés par fine-tuning supervisé (SFT) montrent que DisCO surpasse significativement GRPO et ses variantes améliorées telles que DAPO, obtenant des gains moyens de 7 % par rapport à GRPO et de 6 % par rapport à DAPO sur six tâches de référence, pour un modèle de 1,5 milliard de paramètres.

DisCO : Renforcer les grands modèles de raisonnement par une optimisation contrainte discriminante

Gang Li Ming Lin Tomer Galanti Zhengzhong Tu Tianbao Yang

Résumé

Dépôts de code

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

DisCO : Renforcer les grands modèles de raisonnement par une optimisation contrainte discriminante

Gang Li Ming Lin Tomer Galanti Zhengzhong Tu Tianbao Yang

Résumé

Dépôts de code

Construire l'IA avec l'IA

Hyper Newsletters