Transformer-XL : Modèles de langage attentifs au-delà d'un contexte de longueur fixe

Les Transformers ont le potentiel d'apprendre des dépendances à long terme, mais ils sont limités par un contexte de longueur fixe dans le cadre du modèle de langage. Nous proposons une nouvelle architecture neuronale, le Transformer-XL, qui permet d'apprendre des dépendances au-delà d'une longueur fixe sans perturber la cohérence temporelle. Cette architecture se compose d'un mécanisme de récurrence au niveau des segments et d'un nouveau schéma de codage positionnel. Notre méthode non seulement permet de capturer des dépendances à plus long terme, mais résout également le problème de fragmentation du contexte. En conséquence, le Transformer-XL apprend des dépendances qui sont 80% plus longues que celles apprises par les RNNs et 450% plus longues que celles apprises par les Transformers classiques, améliorant les performances sur les séquences courtes et longues, et étant jusqu'à 1 800 fois plus rapide que les Transformers classiques lors de l'évaluation. Notamment, nous améliorons les résultats actuels en termes de bpc/perplexité à 0.99 sur enwiki8, 1.08 sur text8, 18.3 sur WikiText-103, 21.8 sur One Billion Word et 54.5 sur Penn Treebank (sans fine-tuning). Lorsqu'il est formé uniquement sur WikiText-103, le Transformer-XL est capable de générer des articles textuels novateurs et raisonnablement cohérents contenant plusieurs milliers de jetons. Notre code source, nos modèles pré-entraînés et nos hyperparamètres sont disponibles dans Tensorflow et PyTorch.