HyperAIHyperAI

Command Palette

Search for a command to run...

Modélisation de langage au niveau des caractères avec une auto-attention plus profonde

Rami Al-Rfou Dokook Choe Noah Constant Mandy Guo Llion Jones

Résumé

Les LSTM et d'autres variantes de RNN ont montré des performances solides dans le modèle de langage au niveau des caractères. Ces modèles sont généralement entraînés en utilisant la rétropropagation tronquée à travers le temps, et il est couramment admis que leur succès provient de leur capacité à mémoriser des contextes à long terme. Dans cet article, nous démontrons qu'un modèle de transformateur profond (64 couches) avec un contexte fixe surpasse les variantes de RNN avec une marge considérable, atteignant l'état de l'art sur deux benchmarks populaires : 1,13 bit par caractère sur text8 et 1,06 sur enwik8. Pour obtenir de bons résultats à cette profondeur, nous montrons qu'il est crucial d'ajouter des pertes auxiliaires, tant aux niveaux intermédiaires du réseau qu'aux positions intermédiaires de la séquence.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modélisation de langage au niveau des caractères avec une auto-attention plus profonde | Articles | HyperAI