HyperAIHyperAI
il y a 17 jours

Entraînement Continu des Modèles de Langage pour l'Apprentissage Peu Supervisé

Zixuan Ke, Haowei Lin, Yijia Shao, Hu Xu, Lei Shu, Bing Liu
Entraînement Continu des Modèles de Langage pour l'Apprentissage Peu Supervisé
Résumé

Les travaux récents sur l’application des grands modèles linguistiques (LM) ont permis d’obtenir des performances remarquables dans de nombreuses applications de traitement du langage naturel (NLP). Adapter ou faire une post-formation d’un LM à l’aide d’un corpus non étiqueté du domaine cible peut encore améliorer significativement les performances sur les tâches finales spécifiques à ce domaine. Ce papier propose le problème de l’extension continue d’un LM en procédant à une post-formation incrémentielle du modèle à l’aide d’une séquence de corpus non étiquetés du domaine, afin d’élargir progressivement ses connaissances sans oublier les compétences antérieures. L’objectif est d’améliorer l’apprentissage peu supervisé (few-shot) des tâches finales dans ces domaines. Le système résultant est nommé CPT (Continual PostTraining), qui, à notre connaissance, constitue le premier système de post-formation continue. Les résultats expérimentaux confirment son efficacité.