Rompre la bouteille d'étranglement de softmax : un modèle de langage RNN de rang élevé

Nous formulons le modèle de langage comme un problème de factorisation matricielle et montrons que l'expressivité des modèles basés sur le Softmax (y compris la majorité des modèles de langage neuronaux) est limitée par une bouteille d'étranglement du Softmax. Étant donné que le langage naturel est fortement dépendant du contexte, cela implique en pratique que le Softmax avec des plongements de mots distribués n'a pas une capacité suffisante pour modéliser le langage naturel. Nous proposons une méthode simple et efficace pour résoudre ce problème, améliorant ainsi les perplexités les plus avancées sur Penn Treebank et WikiText-2 à 47,69 et 40,68 respectivement. La méthode proposée se distingue également sur le grand ensemble de données 1B Word, surpassant la ligne de base de plus de 5,6 points en termes de perplexité.