Évaluation Dynamique des Modèles de Séquences Neurales

Nous présentons une méthodologie pour l'utilisation de l'évaluation dynamique afin d'améliorer les modèles de séquences neuronaux. Les modèles sont adaptés à l'historique récent grâce à un mécanisme basé sur la descente de gradient, ce qui leur permet d'attribuer des probabilités plus élevées aux motifs séquentiels récurrents. L'évaluation dynamique surpasses les approches d'adaptation existantes dans nos comparaisons. L'évaluation dynamique améliore les performances en termes de perplexité au niveau des mots sur les jeux de données Penn Treebank et WikiText-2, atteignant respectivement 51,1 et 44,3, ainsi que les performances en termes d'entropie croisée au niveau des caractères sur les jeux de données text8 et Hutter Prize, atteignant respectivement 1,19 bit/char et 1,08 bit/char.