HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer-XL : Modèles de langage attentifs au-delà d'un contexte de longueur fixe

Rong Yang Qian Yu Ruoming Pang Zihang Dai Yonghui Wu Quoc V. Le

Résumé

Les Transformers ont le potentiel d'apprendre des dépendances à long terme, mais ils sont limités par un contexte de longueur fixe dans le cadre du modèle de langage. Nous proposons une nouvelle architecture neuronale, le Transformer-XL, qui permet d'apprendre des dépendances au-delà d'une longueur fixe sans perturber la cohérence temporelle. Cette architecture se compose d'un mécanisme de récurrence au niveau des segments et d'un nouveau schéma de codage positionnel. Notre méthode non seulement permet de capturer des dépendances à plus long terme, mais résout également le problème de fragmentation du contexte. En conséquence, le Transformer-XL apprend des dépendances qui sont 80% plus longues que celles apprises par les RNNs et 450% plus longues que celles apprises par les Transformers classiques, améliorant les performances sur les séquences courtes et longues, et étant jusqu'à 1 800 fois plus rapide que les Transformers classiques lors de l'évaluation. Notamment, nous améliorons les résultats actuels en termes de bpc/perplexité à 0.99 sur enwiki8, 1.08 sur text8, 18.3 sur WikiText-103, 21.8 sur One Billion Word et 54.5 sur Penn Treebank (sans fine-tuning). Lorsqu'il est formé uniquement sur WikiText-103, le Transformer-XL est capable de générer des articles textuels novateurs et raisonnablement cohérents contenant plusieurs milliers de jetons. Notre code source, nos modèles pré-entraînés et nos hyperparamètres sont disponibles dans Tensorflow et PyTorch.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp