il y a 9 jours

GLM : Pré-entraînement d'un Modèle Linguistique Général avec Complétion Auto-régressive de Blancs

Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, Jie Tang

Résumé

Plusieurs types d'architectures de préentraînement ont été proposés, notamment les modèles d'auto-encodage (par exemple, BERT), les modèles autoregressifs (par exemple, GPT) et les modèles encodeur-décodeur (par exemple, T5). Toutefois, aucun cadre de préentraînement ne se distingue par une performance optimale sur l'ensemble des tâches appartenant aux trois grandes catégories suivantes : compréhension du langage naturel (NLU), génération non conditionnelle et génération conditionnelle. Nous proposons un Modèle Linguistique Général (GLM), fondé sur une inférence autoregressive de blancs, afin de relever ce défi. Le GLM améliore le préentraînement par complétion de blancs en introduisant des encodages positionnels bidimensionnels et en permettant une prédiction des segments dans un ordre arbitraire, ce qui se traduit par une meilleure performance que BERT et T5 sur les tâches de NLU. Par ailleurs, le GLM peut être préentraîné pour différentes catégories de tâches en ajustant le nombre et la longueur des blancs. Sur une large gamme de tâches couvrant la NLU, la génération conditionnelle et la génération non conditionnelle, le GLM surpasse BERT, T5 et GPT, même avec des tailles de modèle et des volumes de données identiques, et atteint les meilleurs résultats à partir d’un seul modèle préentraîné dont la taille est 1,25 fois celle de BERT Large, démontrant ainsi sa capacité généralisable à diverses tâches en aval.