Transformateurs Adaptativement Épars

Les mécanismes d'attention sont devenus omniprésents dans le traitement du langage naturel (NLP). Les architectures récentes, notamment le Transformer, apprennent des représentations de mots puissantes et contextuelles à travers des couches d'attention multi-têtes. Les multiples têtes d'attention apprennent différents types de relations entre les mots. Cependant, avec l'attention softmax standard, toutes les têtes d'attention sont denses, attribuant un poids non nul à tous les mots du contexte. Dans ce travail, nous introduisons le Transformer à attention adaptativement creuse, où les têtes d'attention présentent des motifs de creux flexibles et dépendants du contexte. Cette crevance est réalisée en remplaçant softmax par $α$-entmax : une généralisation différentiable de softmax qui permet aux mots mal notés de recevoir un poids exactement nul. De plus, nous développons une méthode pour apprendre automatiquement le paramètre $α$ -- qui contrôle la forme et la crevance de $α$-entmax -- permettant aux têtes d'attention de choisir entre un comportement concentré ou dispersé. Notre Transformer à attention adaptativement creuse améliore l'interprétabilité et la diversité des têtes par rapport aux Transformers softmax sur des jeux de données de traduction automatique. Les résultats de l'analyse quantitative et qualitative de notre approche montrent que les têtes dans différentes couches apprennent des préférences de crevance différentes et tendent à être plus diversifiées dans leurs distributions d'attention que les Transformers softmax. De plus, sans perte de précision, la crevance dans les têtes d'attention aide à révéler différentes spécialisations des têtes.