HyperAIHyperAI
il y a 17 jours

Axial-DeepLab : Attention axiale autonome pour la segmentation panoptique

Huiyu Wang, Yukun Zhu, Bradley Green, Hartwig Adam, Alan Yuille, Liang-Chieh Chen
Axial-DeepLab : Attention axiale autonome pour la segmentation panoptique
Résumé

La convolution exploite la localité pour assurer une efficacité computationnelle, au prix de la perte de contexte à longue portée. L’attention auto-sélective a été adoptée afin d’ajouter aux réseaux de neurones convolutifs (CNN) des interactions non locales. Des travaux récents ont montré qu’il est possible de superposer des couches d’attention auto-sélective pour obtenir un réseau entièrement basé sur l’attention, en restreignant l’attention à une région locale. Dans cet article, nous tentons de lever cette contrainte en factorisant l’attention auto-sélective 2D en deux attentes auto-sélectives 1D. Cette approche réduit la complexité computationnelle et permet d’effectuer l’attention sur une région plus étendue, voire globale. Par ailleurs, nous proposons également un design d’attention sensible à la position. En combinant ces deux composantes, nous obtenons notre couche d’attention axiale sensible à la position, un nouveau bloc de construction pouvant être empilé pour former des modèles d’attention axiale destinés à la classification d’images et aux tâches de prédiction dense. Nous démontrons l’efficacité de notre modèle sur quatre grands jeux de données. En particulier, notre modèle bat tous les modèles existants basés uniquement sur l’attention auto-sélective sur ImageNet. Axial-DeepLab améliore de 2,8 % le score PQ par rapport à l’état de l’art basé sur une approche ascendante sur le test-dev de COCO. Ce précédent état de l’art était atteint par une variante légère de notre modèle, qui est 3,8 fois plus efficace en nombre de paramètres et 27 fois plus efficace en termes de calcul. Axial-DeepLab atteint également des résultats état de l’art sur Mapillary Vistas et Cityscapes.