Attention Relaxée pour les Modèles Transformer

Les capacités de modélisation puissantes des architectures de transformateur basées entièrement sur l'attention entraînent souvent un surapprentissage et, pour les tâches de traitement du langage naturel, conduisent à un modèle de langage interne appris implicitement dans le décodeur de transformateur autoregressif, compliquant ainsi l'intégration des modèles de langage externes. Dans cet article, nous explorons l'attention relaxée, une méthode simple et facile à mettre en œuvre pour lisser les poids d'attention, offrant une amélioration double de l'architecture générale du transformateur : premièrement, l'attention relaxée fournit une régularisation lorsqu'elle est appliquée aux couches d'auto-attention dans l'encodeur. Deuxièmement, nous montrons qu'elle soutient naturellement l'intégration d'un modèle de langage externe en réduisant le modèle de langage interne appris implicitement grâce au relâchement de l'attention croisée dans le décodeur. Nous démontrons les avantages de l'attention relaxée à travers plusieurs tâches, avec des améliorations claires lorsqu'elle est combinée aux approches récentes utilisées comme référence. Plus précisément, nous surpassons la performance précédemment record de 26,90 % d'erreur sur les mots (WER) sur la plus grande base publique de lecture labiale LRS3 avec un taux d'erreur sur les mots (WER) de 26,31 %. De plus, nous obtenons un score BLEU optimal de 37,67 pour la tâche de traduction automatique IWSLT14 (DE$\rightarrow$EN) sans modèles de langage externes et pratiquement sans paramètres supplémentaires du modèle. Le code et les modèles seront rendus publiquement disponibles.