HyperAIHyperAI
il y a un mois

Modélisation de langage au niveau des caractères avec une auto-attention plus profonde

Rami Al-Rfou; Dokook Choe; Noah Constant; Mandy Guo; Llion Jones
Modélisation de langage au niveau des caractères avec une auto-attention plus profonde
Résumé

Les LSTM et d'autres variantes de RNN ont montré des performances solides dans le modèle de langage au niveau des caractères. Ces modèles sont généralement entraînés en utilisant la rétropropagation tronquée à travers le temps, et il est couramment admis que leur succès provient de leur capacité à mémoriser des contextes à long terme. Dans cet article, nous démontrons qu'un modèle de transformateur profond (64 couches) avec un contexte fixe surpasse les variantes de RNN avec une marge considérable, atteignant l'état de l'art sur deux benchmarks populaires : 1,13 bit par caractère sur text8 et 1,06 sur enwik8. Pour obtenir de bons résultats à cette profondeur, nous montrons qu'il est crucial d'ajouter des pertes auxiliaires, tant aux niveaux intermédiaires du réseau qu'aux positions intermédiaires de la séquence.