Sur l'état de l'art de l'évaluation dans les modèles de langage neuronaux

Les innovations continues dans les architectures des réseaux de neurones récurrents ont fourni un flux constant de résultats apparemment de pointe sur les benchmarks de modélisation linguistique. Cependant, ces évaluations ont été réalisées à l'aide de bases de code différentes et de ressources computationnelles limitées, ce qui représente des sources non contrôlées de variation expérimentale. Nous avons réévalué plusieurs architectures populaires et méthodes de régularisation en utilisant une optimisation automatique à grande échelle des hyperparamètres par boîte noire, et nous sommes arrivés à la conclusion quelque peu surprenante que les architectures LSTM standard, lorsqu'elles sont correctement régularisées, surpassent les modèles plus récents. Nous établissons un nouveau niveau de référence sur les corpus Penn Treebank et Wikitext-2, ainsi que des baselines solides sur le dataset du Hutter Prize (Hutter Prize).