Command Palette
Search for a command to run...
GTA : apprentissage par renforcement guidé par supervision pour la classification de texte avec des modèles de langage à grande échelle

Résumé
Dans les tâches de traitement du langage naturel, les méthodes de mise au point par apprentissage par renforcement (RL) pures souffrent souvent d’une exploration inefficace et d’une convergence lente ; tandis que les méthodes de mise au point supervisée (SFT), bien qu’efficaces en apprentissage, présentent un plafond de performance limité et une fondation théorique moins solide que celles du RL. Pour atténuer le compromis entre efficacité et capacité, nous proposons le cadre Guess-Think-Answer (GTA), qui combine l’efficacité de la SFT avec les gains de capacité du RL dans un cadre d’entraînement unifié. Le cadre GTA fonctionne en faisant d’abord produire au modèle une première estimation provisoire (optimisée via une perte par entropie croisée), puis en lui permettant de réfléchir à cette estimation avant de générer la réponse finale, les récompenses du RL influençant à la fois la sortie finale et la structure globale du cadre GTA. Cette approche hybride permet d’atteindre une convergence plus rapide que le RL pur tout en offrant un plafond de performance supérieur à celui de la SFT seule. Pour atténuer les conflits de gradients entre les deux signaux d’apprentissage, nous utilisons un masquage de perte et des contraintes sur les gradients. Les résultats expérimentaux sur quatre benchmarks de classification de texte démontrent que GTA accélère significativement la convergence tout en surpassant à la fois les méthodes de référence SFT et RL isolées.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.