HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 15 jours

SofT-GRPO : Dépasser l'apprentissage par renforcement des modèles linguistiques à tokens discrets grâce à l'optimisation de politique à pensée douce réparamétrée par Gumbel

Zhi Zheng Wee Sun Lee

SofT-GRPO : Dépasser l'apprentissage par renforcement des modèles linguistiques à tokens discrets grâce à l'optimisation de politique à pensée douce réparamétrée par Gumbel

Résumé

Le paradigme de raisonnement à pensée douce (soft-thinking) pour les grands modèles linguistiques (LLM) peut surpasser, dans certains scénarios, le raisonnement classique par chaîne de pensée (Chain-of-Thought, CoT) basé sur des tokens discrets, mettant ainsi en évidence sa valeur de recherche et d'application. Toutefois, alors que le schéma de CoT à tokens discrets peut être renforcé à l’aide d’algorithmes d’optimisation de politique tels que l’optimisation de politique relative par groupe (Group Relative Policy Optimization, GRPO), l’extension du paradigme à pensée douce par apprentissage par renforcement (Reinforcement Learning, RL) demeure un défi. Cette difficulté provient des complexités inhérentes à l’introduction de stochasticité dans les tokens à pensée douce et à la mise à jour des politiques correspondantes. En conséquence, les tentatives antérieures de combiner la pensée douce avec GRPO ont généralement montré des performances inférieures à celles du GRPO à tokens discrets. Afin de libérer pleinement le potentiel de la pensée douce, ce papier présente un nouvel algorithme d’optimisation de politique, appelé SofT-GRPO, conçu pour renforcer les LLM dans le cadre du raisonnement à pensée douce. SofT-GRPO injecte du bruit Gumbel dans les logits, utilise la technique Gumbel-Softmax pour éviter que les tokens à pensée douce sortent de l’espace d’embedding pré-entraîné, et exploite la technique de réparamétrisation dans le calcul du gradient de politique. Nous menons des expérimentations sur des LLM de base dont la taille varie de 1,5 à 7 milliards de paramètres. Les résultats montrent que SofT-GRPO permet aux LLM à pensée douce de légèrement surpasser le GRPO à tokens discrets en termes de précision Pass@1 (+0,13 % en moyenne), tout en offrant une amélioration notable pour Pass@32 (+2,19 % en moyenne). Les codes et les poids sont disponibles à l’adresse suivante : https://github.com/zz1358m/SofT-GRPO-master

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SofT-GRPO : Dépasser l'apprentissage par renforcement des modèles linguistiques à tokens discrets grâce à l'optimisation de politique à pensée douce réparamétrée par Gumbel | Articles de recherche | HyperAI