il y a 2 mois

Transformateurs Pré-entraînés Génératifs et Structurés : Modèles de Langue Syntaxiques Non-supervisés à Grande Échelle

Xiang Hu; Pengyu Ji; Qingyang Zhu; Wei Wu; Kewei Tu

Résumé

Un modèle de langage syntaxique (SLM) génère progressivement une phrase avec son arbre syntaxique d'une manière gauche à droite. Nous présentons les Transformers Structurés Pré-entraînés Génératifs (GPST), un SLM non supervisé à grande échelle capable d'être pré-entraîné à partir de zéro sur des textes bruts avec une forte parallélisme. Le GPST contourne les limitations des SLM précédents, telles que la dépendance aux arbres d'or et l'entraînement séquentiel. Il se compose de deux composants : un SLM classique supervisé par une perte de modélisation de langage unidirectionnelle, et un modèle de composition supplémentaire qui induit des arbres de parsing syntaxiques et calcule les représentations des constituants, supervisé par une perte de modélisation de langage bidirectionnelle. Nous proposons un substitut de représentation pour permettre l'entraînement parallèle conjoint des deux modèles selon une méthode EM rigide. Nous pré-entraînons le GPST sur OpenWebText, un corpus contenant 9 milliards de jetons, et démontrons la supériorité du GPST sur GPT-2 d'une taille comparable dans de nombreuses tâches couvrant tant la compréhension linguistique que la génération linguistique. Parallèlement, le GPST dépasse également significativement les SLM non supervisés existants en matière d'induction grammaticale gauche à droite, tout en offrant une accélération substantielle lors de l'entraînement.