Les voitures ne peuvent pas voler dans le ciel : amélioration de la segmentation des scènes urbaines grâce aux réseaux d'attention pilotés par l'altitude

Ce papier exploite les caractéristiques intrinsèques des images de scènes urbaines et propose un module généralisable, appelé réseaux d’attention pilotés par la hauteur (HANet), visant à améliorer la segmentation sémantique des images de scènes urbaines. Ce module met en évidence de manière sélective les caractéristiques ou classes informatives en fonction de la position verticale d’un pixel. Les distributions de classes par pixel diffèrent de manière significative entre les sections horizontalement segmentées des images de scènes urbaines. De même, les images de scènes urbaines présentent des caractéristiques propres, mais la plupart des réseaux de segmentation sémantique ne tiennent pas compte de ces attributs uniques dans leur architecture. L’architecture proposée intègre la capacité d’exploiter ces caractéristiques afin de traiter efficacement les jeux de données de scènes urbaines. Nous validons une amélioration cohérente du score mIoU sur plusieurs modèles de segmentation sémantique sur deux jeux de données lorsque HANet est intégré. Cette analyse quantitative approfondie démontre qu’il est facile et peu coûteux d’ajouter notre module aux modèles existants. Notre méthode atteint une nouvelle performance de pointe sur le benchmark Cityscapes, avec une marge notable par rapport aux modèles basés sur ResNet-101. En outre, nous montrons que le modèle proposé est cohérent avec les observations réelles observées dans les scènes urbaines, en visualisant et en interprétant la carte d’attention. Le code source et les modèles entraînés sont disponibles publiquement à l’adresse suivante : https://github.com/shachoi/HANet