Transformers à goulot d'étranglement pour la reconnaissance visuelle

Nous présentons BoTNet, une architecture de base conceptuellement simple mais puissante, qui intègre l’attention auto-associative pour plusieurs tâches de vision par ordinateur, notamment la classification d’images, la détection d’objets et la segmentation d’instances. En remplaçant simplement les convolutions spatiales par une attention globale dans les trois derniers blocs bottleneck d’un ResNet, sans aucune autre modification, notre approche améliore significativement les performances par rapport aux modèles de référence en segmentation d’instances et détection d’objets, tout en réduisant le nombre de paramètres, avec un surcoût négligeable en latence. Grâce à la conception de BoTNet, nous soulignons également la manière dont les blocs bottleneck de ResNet intégrant une attention auto-associative peuvent être interprétés comme des blocs Transformer. Sans aucune optimisation supplémentaire, BoTNet atteint 44,4 % d’AP masque et 49,7 % d’AP boîte sur le benchmark COCO pour la segmentation d’instances, en utilisant le cadre Mask R-CNN, surpassant ainsi les meilleurs résultats publiés précédemment pour un seul modèle et une seule échelle sur l’ensemble de validation COCO, obtenus avec ResNeSt. Enfin, nous proposons une adaptation simple de la conception de BoTNet pour la classification d’images, donnant lieu à des modèles atteignant une performance remarquable de 84,7 % d’exactitude top-1 sur le benchmark ImageNet, tout en étant jusqu’à 1,64 fois plus rapides en temps de calcul que les modèles populaires EfficientNet sur matériel TPU-v3. Nous espérons que notre approche simple et efficace pourra servir de base solide pour les recherches futures sur les modèles à attention auto-associative en vision par ordinateur.