HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux d'Attention Masquée : Repenser et Renforcer le Transformer

Zhihao Fan Yeyun Gong Dayiheng Liu Zhongyu Wei Siyuan Wang Jian Jiao Nan Duan Ruofei Zhang Xuanjing Huang

Résumé

Transformer est un réseau neuronal basé sur l’attention, composé de deux sous-couches : le réseau d’attention auto-associative (SAN) et le réseau de feed-forward (FFN). Les recherches existantes visent à améliorer séparément ces deux sous-couches afin d’augmenter la capacité du Transformer à représenter les textes. Dans cet article, nous proposons une nouvelle interprétation du SAN et du FFN comme des réseaux d’attention masquée (MAN), montrant qu’ils constituent deux cas particuliers de MAN reposant sur des matrices de masque statiques. Toutefois, ces matrices de masque statiques limitent la capacité à modéliser la localité dans l’apprentissage de représentations textuelles. Nous introduisons donc une nouvelle couche, nommée réseau d’attention masquée dynamique (DMAN), dotée d’une matrice de masque apprenable, capable de modéliser la localité de manière adaptative. Afin d’exploiter les avantages du DMAN, du SAN et du FFN, nous proposons une structure hiérarchique séquentielle combinant ces trois types de couches. Des expériences étendues sur diverses tâches, notamment la traduction automatique neuronale et la synthèse de textes, démontrent que notre modèle surpasser le Transformer original.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp