HyperAIHyperAI
il y a 17 jours

Attention hiérarchique à plusieurs échelles pour la segmentation sémantique

Andrew Tao, Karan Sapra, Bryan Catanzaro
Attention hiérarchique à plusieurs échelles pour la segmentation sémantique
Résumé

L’inférence multi-échelle est couramment utilisée pour améliorer les résultats de la segmentation sémantique. Plusieurs échelles d’images sont passées à travers un réseau, puis les résultats sont combinés par moyennage ou par pooling max. Dans ce travail, nous proposons une approche basée sur l’attention pour combiner les prédictions multi-échelle. Nous montrons que certaines échelles sont particulièrement efficaces pour corriger certains types d’échecs, et que le réseau apprend à privilégier ces échelles dans les cas correspondants afin de produire des prédictions plus précises. Notre mécanisme d’attention est hiérarchique, ce qui le rend approximativement 4 fois plus efficace en mémoire pendant l’entraînement que les approches récentes. En plus d’accélérer l’entraînement, cette caractéristique permet d’entraîner le modèle avec des tailles de découpage plus grandes, ce qui améliore significativement la précision du modèle. Nous démontrons les performances de notre méthode sur deux jeux de données : Cityscapes et Mapillary Vistas. Pour Cityscapes, qui contient un grand nombre d’images étiquetées de manière faible, nous exploitons également une auto-étiquetage pour améliorer la généralisation. Grâce à notre approche, nous atteignons de nouveaux records d’état de l’art sur Mapillary (61,1 IOU sur le jeu de validation) et Cityscapes (85,1 IOU sur le jeu de test).

Attention hiérarchique à plusieurs échelles pour la segmentation sémantique | Articles de recherche récents | HyperAI