il y a 13 jours

Atténuation de l'inégalité des têtes d'attention pour la traduction automatique neurale

Zewei Sun, Shujian Huang, Xin-Yu Dai, Jiajun Chen

Résumé

Des études récentes montrent que les têtes d'attention dans les Transformers ne sont pas équivalentes. Nous attribuons ce phénomène à un déséquilibre dans l'entraînement de l'attention à plusieurs têtes, ainsi qu'à la dépendance du modèle vis-à-vis de certaines têtes spécifiques. Pour remédier à ce problème, nous proposons une méthode simple de masquage : HeadMask, appliquée de deux façons distinctes. Les expérimentations montrent une amélioration des performances de traduction sur plusieurs paires de langues. Des analyses empiriques ultérieures soutiennent également notre hypothèse et confirment l'efficacité de la méthode.