il y a un mois
Évaluation dynamique des modèles de langage à base de transformateur
Ben Krause; Emmanuel Kahembwe; Iain Murray; Steve Renals

Résumé
Cette note de recherche combine deux méthodes qui ont récemment amélioré l'état de l'art dans le domaine du modèle de langage : les Transformers et l'évaluation dynamique. Les Transformers utilisent des couches superposées d'auto-attention, ce qui leur permet de capturer les dépendances à long terme dans les données séquentielles. L'évaluation dynamique adapte les modèles à l'historique récent de la séquence, leur permettant d'attribuer des probabilités plus élevées aux motifs séquentiels récurrents. En appliquant l'évaluation dynamique aux modèles Transformer-XL, nous améliorons l'état de l'art sur enwik8 de 0,99 à 0,94 bits/char, sur text8 de 1,08 à 1,04 bits/char, et sur WikiText-103 de 18,3 à 16,4 points de perplexité.