Réseaux d'Attention Masquée : Repenser et Renforcer le Transformer

Transformer est un réseau neuronal basé sur l’attention, composé de deux sous-couches : le réseau d’attention auto-associative (SAN) et le réseau de feed-forward (FFN). Les recherches existantes visent à améliorer séparément ces deux sous-couches afin d’augmenter la capacité du Transformer à représenter les textes. Dans cet article, nous proposons une nouvelle interprétation du SAN et du FFN comme des réseaux d’attention masquée (MAN), montrant qu’ils constituent deux cas particuliers de MAN reposant sur des matrices de masque statiques. Toutefois, ces matrices de masque statiques limitent la capacité à modéliser la localité dans l’apprentissage de représentations textuelles. Nous introduisons donc une nouvelle couche, nommée réseau d’attention masquée dynamique (DMAN), dotée d’une matrice de masque apprenable, capable de modéliser la localité de manière adaptative. Afin d’exploiter les avantages du DMAN, du SAN et du FFN, nous proposons une structure hiérarchique séquentielle combinant ces trois types de couches. Des expériences étendues sur diverses tâches, notamment la traduction automatique neuronale et la synthèse de textes, démontrent que notre modèle surpasser le Transformer original.