il y a un mois

Connexion de Sortie Directe pour un Modèle de Langue de Haut Rang

Sho Takase; Jun Suzuki; Masaaki Nagata

Résumé

Ce travail propose un modèle de langage basé sur un réseau neuronal récurrent (RNN) d'avant-garde qui combine des distributions de probabilité calculées non seulement à partir de la couche finale du RNN, mais également à partir des couches intermédiaires. Notre méthode proposée augmente la puissance expressive du modèle de langage en s'appuyant sur l'interprétation de la factorisation matricielle du modèle de langage introduite par Yang et al. (2018). Cette méthode améliore le modèle de langage actuellement considéré comme l'état de l'art et obtient les meilleurs scores sur les ensembles de données standards Penn Treebank et WikiText-2. De plus, nous montrons que notre méthode proposée contribue à deux tâches d'application : la traduction automatique et la génération de titres. Notre code est disponible au public à l'adresse suivante : https://github.com/nttcslab-nlp/doc_lm.