XCiT : Transformateurs d'images à covariance croisée

Après leur succès dans le traitement du langage naturel, les transformateurs ont récemment montré un grand potentiel en vision par ordinateur. L'opération d'attention auto-associative sous-jacente aux transformateurs permet des interactions globales entre tous les tokens — qu'il s'agisse de mots ou de patches d'image — et permet une modélisation souple des données d'image, au-delà des interactions locales des réseaux de convolution. Cette flexibilité, toutefois, s'accompagne d'une complexité quadratique en temps et en mémoire, ce qui limite leur application à des séquences longues ou à des images haute résolution. Nous proposons une version « transposée » de l'attention auto-associative, qui opère sur les canaux de caractéristiques plutôt que sur les tokens, où les interactions sont fondées sur la matrice de covariance croisée entre les clés et les requêtes. L'attention par covariance croisée (XCA) ainsi obtenue présente une complexité linéaire en nombre de tokens, permettant un traitement efficace d'images haute résolution. Notre transformateur d'image par covariance croisée (XCiT) repose sur XCA. Il combine la précision des transformateurs conventionnels avec la scalabilité des architectures de convolution. Nous validons l'efficacité et la généralité de XCiT en rapportant des résultats excellents sur plusieurs benchmarks de vision, incluant la classification d'images et l'apprentissage non supervisé de caractéristiques sur ImageNet-1k, la détection d'objets et la segmentation d'instances sur COCO, ainsi que la segmentation sémantique sur ADE20k.