HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 13 jours

GTA : apprentissage par renforcement guidé par supervision pour la classification de texte avec des modèles de langage à grande échelle

GTA : apprentissage par renforcement guidé par supervision pour la classification de texte avec des modèles de langage à grande échelle

Résumé

Dans les tâches de traitement du langage naturel, les méthodes de mise au point par apprentissage par renforcement (RL) pures souffrent souvent d’une exploration inefficace et d’une convergence lente ; tandis que les méthodes de mise au point supervisée (SFT), bien qu’efficaces en apprentissage, présentent un plafond de performance limité et une fondation théorique moins solide que celles du RL. Pour atténuer le compromis entre efficacité et capacité, nous proposons le cadre Guess-Think-Answer (GTA), qui combine l’efficacité de la SFT avec les gains de capacité du RL dans un cadre d’entraînement unifié. Le cadre GTA fonctionne en faisant d’abord produire au modèle une première estimation provisoire (optimisée via une perte par entropie croisée), puis en lui permettant de réfléchir à cette estimation avant de générer la réponse finale, les récompenses du RL influençant à la fois la sortie finale et la structure globale du cadre GTA. Cette approche hybride permet d’atteindre une convergence plus rapide que le RL pur tout en offrant un plafond de performance supérieur à celui de la SFT seule. Pour atténuer les conflits de gradients entre les deux signaux d’apprentissage, nous utilisons un masquage de perte et des contraintes sur les gradients. Les résultats expérimentaux sur quatre benchmarks de classification de texte démontrent que GTA accélère significativement la convergence tout en surpassant à la fois les méthodes de référence SFT et RL isolées.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GTA : apprentissage par renforcement guidé par supervision pour la classification de texte avec des modèles de langage à grande échelle | Articles de recherche | HyperAI