Représentations d'entrée adaptatives pour la modélisation linguistique neuronale

Nous présentons des représentations d'entrée adaptatives pour le modélisation linguistique neuronale qui étendent l'adaptive softmax de Grave et al. (2017) aux représentations d'entrée de capacité variable. Il existe plusieurs options pour la factorisation des couches d'entrée et de sortie, ainsi que pour la modélisation des mots, des caractères ou des unités sous-mot. Nous effectuons une comparaison systématique des choix populaires dans le cadre d'une architecture à attention auto-adaptative. Nos expériences montrent que les modèles équipés de plongements adaptatifs s'entraînent plus de deux fois plus rapidement que le réseau neuronal convolutif (CNN) d'entrée par caractère populaire tout en ayant un nombre inférieur de paramètres. Sur le benchmark WikiText-103, nous obtenons une perplexité de 18,7, soit une amélioration de 10,5 points de perplexité par rapport au meilleur résultat publié précédemment. Sur le benchmark Billion Word, nous atteignons une perplexité de 23,02.