HyperAIHyperAI
il y a 17 jours

Pré-entraînement continu des modèles de langage

Zixuan Ke, Yijia Shao, Haowei Lin, Tatsuya Konishi, Gyuhak Kim, Bing Liu
Pré-entraînement continu des modèles de langage
Résumé

Les modèles de langage (LM) ont joué un rôle fondamental dans l’avancée rapide du traitement du langage naturel. Ce papier étudie la pré-formation continue des LM, en particulier la pré-formation adaptative continue au domaine (ou pré-formation DAP continue). Les recherches existantes ont montré qu’une pré-formation supplémentaire d’un LM à l’aide d’un corpus spécifique au domaine permet d’adapter le modèle à ce domaine et d’améliorer ainsi ses performances sur les tâches finales dans ce domaine. Ce travail propose une nouvelle méthode pour effectuer une pré-formation DAP continue d’un LM à l’aide d’une séquence de corpus non étiquetés provenant de domaines variés, afin d’adapter le modèle à ces différents domaines et d’améliorer ses performances sur les tâches finales. La nouveauté principale de notre méthode réside dans un mécanisme de masquage doux qui contrôle directement les mises à jour du LM. Un nouvel indicateur (proxy) est également introduit pour préserver les connaissances générales contenues dans le LM initial. En outre, la méthode compare les représentations des connaissances acquises précédemment (y compris les connaissances générales du LM pré-entraîné) et celles issues du réseau complet actuel, afin d’assurer une intégration efficace des connaissances. Cette approche surmonte non seulement le problème du oubli catastrophique, mais permet également un transfert de connaissances qui améliore les performances sur les tâches finales. Une évaluation empirique confirme l’efficacité de la méthode proposée.