Accroître les réseaux convolutionnels par une agrégation basée sur l'attention

Nous montrons comment enrichir tout réseau convolutionnel d'une carte globale basée sur l'attention afin d'obtenir un raisonnement non-local. Nous remplaçons le pooling moyen final par une couche d'agrégation basée sur l'attention, analogue à un bloc unique de transformer, qui pondère l'implication de chaque patch dans la décision de classification. Nous intégrons cette couche d'agrégation apprise à un réseau convolutionnel basé sur des patches, dont la paramétrisation est réduite à deux paramètres (largeur et profondeur). Contrairement aux architectures pyramidales, cette famille d'architectures préserve la résolution des patches d'entrée à travers toutes les couches. Nos expériences menées sur diverses tâches de vision par ordinateur — classification d'objets, segmentation d'images, détection — démontrent des compromis étonnamment performants entre précision et complexité, en particulier en termes de consommation mémoire.