Transformateur attentif à plusieurs branches

Bien que l’architecture à plusieurs branches constitue l’un des éléments clés du succès des tâches de vision par ordinateur, elle n’a pas été suffisamment explorée dans le domaine du traitement du langage naturel, en particulier pour les tâches d’apprentissage séquentiel. Dans ce travail, nous proposons une variante simple mais efficace du modèle Transformer, appelée Transformer à attention multi-branche (abréviation : MAT), dans laquelle la couche d’attention correspond à la moyenne de plusieurs branches, chaque branche étant une couche d’attention multi-têtes indépendante. Nous utilisons deux techniques d’entraînement pour régulariser le processus d’apprentissage : le « drop-branch », qui consiste à supprimer aléatoirement des branches pendant l’entraînement, et l’initialisation proximale, qui utilise un modèle Transformer pré-entraîné pour initialiser les différentes branches. Des expériences menées sur la traduction automatique, la génération de code et la compréhension du langage naturel montrent que cette variante simple du Transformer apporte des améliorations significatives. Notre code est disponible à l’adresse suivante : \url{https://github.com/HA-Transformer}.