Attention Multi-variété pour les Vision Transformers

Les Transformateurs de vision sont actuellement très populaires en raison de leurs performances de pointe dans plusieurs tâches de vision par ordinateur, telles que la classification d’images et la reconnaissance d’actions. Bien que leurs performances aient été considérablement améliorées grâce à des embeddings de patchs hautement descriptifs et à des structures hiérarchiques, les recherches sur l’utilisation de représentations supplémentaires de données afin de raffiner la carte d’attention auto-attention d’un Transformer restent limitées. Pour remédier à ce problème, cette étude propose un nouveau mécanisme d’attention, nommé attention multi-variétés multi-têtes, destiné à remplacer l’attention auto-attention classique d’un Transformer. Ce mécanisme modélise l’espace d’entrée à travers trois variétés distinctes : euclidienne, positive définie symétrique et de Grassmann, exploitant ainsi différentes propriétés statistiques et géométriques des données d’entrée pour calculer une carte d’attention hautement descriptible. Grâce à cette approche, le mécanisme d’attention proposé permet à un Transformateur de vision de se concentrer davantage sur les caractéristiques importantes d’apparence, de couleur et de texture d’une image, conduisant à des résultats améliorés en classification et segmentation, comme le montrent les résultats expérimentaux sur des jeux de données célèbres.