Apprentissage des structures de corrélation pour les Transformers en vision

Nous présentons un nouveau mécanisme d'attention, appelé attention structurée auto (StructSA), qui exploite les motifs de corrélation riches qui émergent naturellement dans les interactions clé-requête de l'attention. StructSA génère des cartes d'attention en reconnaissant les structures spatio-temporelles des corrélations clé-requête par le biais de convolutions et utilise ces cartes pour agréger dynamiquement les contextes locaux des caractéristiques de valeur. Cela permet d'exploiter efficacement les motifs structuraux riches présents dans les images et les vidéos, tels que la disposition des scènes, le mouvement des objets et les relations inter-objets. En utilisant StructSA comme bloc de construction principal, nous développons le transformateur visuel structuré (StructViT) et évaluons son efficacité sur des tâches de classification d'images et de vidéos, obtenant des résultats à l'état de l'art sur ImageNet-1K, Kinetics-400, Something-Something V1 & V2, Diving-48 et FineGym.