HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateurs Pré-entraînés Génératifs et Structurés : Modèles de Langue Syntaxiques Non-supervisés à Grande Échelle

Xiang Hu‡∗ Pengyu Ji§∗ Qingyang Zhu§ Wei Wu‡† Kewei Tu§†

Résumé

Un modèle de langage syntaxique (SLM) génère progressivement une phrase avec son arbre syntaxique d'une manière gauche à droite. Nous présentons les Transformers Structurés Pré-entraînés Génératifs (GPST), un SLM non supervisé à grande échelle capable d'être pré-entraîné à partir de zéro sur des textes bruts avec une forte parallélisme. Le GPST contourne les limitations des SLM précédents, telles que la dépendance aux arbres d'or et l'entraînement séquentiel. Il se compose de deux composants : un SLM classique supervisé par une perte de modélisation de langage unidirectionnelle, et un modèle de composition supplémentaire qui induit des arbres de parsing syntaxiques et calcule les représentations des constituants, supervisé par une perte de modélisation de langage bidirectionnelle. Nous proposons un substitut de représentation pour permettre l'entraînement parallèle conjoint des deux modèles selon une méthode EM rigide. Nous pré-entraînons le GPST sur OpenWebText, un corpus contenant 9 milliards de jetons, et démontrons la supériorité du GPST sur GPT-2 d'une taille comparable dans de nombreuses tâches couvrant tant la compréhension linguistique que la génération linguistique. Parallèlement, le GPST dépasse également significativement les SLM non supervisés existants en matière d'induction grammaticale gauche à droite, tout en offrant une accélération substantielle lors de l'entraînement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Transformateurs Pré-entraînés Génératifs et Structurés : Modèles de Langue Syntaxiques Non-supervisés à Grande Échelle | Articles | HyperAI