HyperAIHyperAI

Command Palette

Search for a command to run...

RealFormer : Transformer aime l'attention résiduelle

Ruining He Anirudh Ravula Bhargav Kanagal Joshua Ainslie

Résumé

Transformer constitue la pierre angulaire des modèles modernes de traitement du langage naturel (NLP). Dans cet article, nous proposons RealFormer, une technique simple et générique permettant de concevoir des réseaux Transformer à couches d’attention résiduelles, qui surpassent de manière significative le Transformer canonique et ses variantes (telles que BERT, etc.) sur une large gamme de tâches, notamment le modélisation de langage masqué, GLUE, SQuAD, la traduction automatique neurale, WikiHop, HotpotQA, Natural Questions et OpenKP. Nous observons également empiriquement que RealFormer stabilise l’entraînement et donne lieu à des modèles présentant une attention plus éparse. Le code source et les points de contrôle pré-entraînés pour RealFormer sont disponibles à l’adresse suivante : https://github.com/google-research/google-research/tree/master/realformer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp