Réseaux de Résidus à Résolution Complète pour la Segmentation Sémantique dans les Scènes de Rue

La segmentation sémantique d'images est un élément essentiel des systèmes de conduite autonome modernes, car une compréhension précise de la scène environnante est cruciale pour la navigation et la planification des actions. Les approches actuelles de pointe en segmentation sémantique d'images reposent sur des réseaux pré-entraînés qui ont été initialement développés pour classifier les images dans leur ensemble. Bien que ces réseaux présentent des performances de reconnaissance exceptionnelles (c'est-à-dire, ce qui est visible ?), ils manquent de précision en localisation (c'est-à-dire, où se trouve exactement quelque chose ?). Par conséquent, des étapes de traitement supplémentaires doivent être effectuées afin d'obtenir des masques de segmentation précis au niveau du pixel à la résolution complète de l'image. Pour atténuer ce problème, nous proposons une nouvelle architecture inspirée du ResNet qui présente une forte performance en localisation et en reconnaissance. Nous combinons le contexte multi-échelle avec la précision au niveau du pixel en utilisant deux flux de traitement au sein de notre réseau : Un flux transporte les informations à la résolution complète de l'image, permettant une adhérence précise aux contours des segments. L'autre flux subit une série d'opérations de pooling pour obtenir des caractéristiques robustes pour la reconnaissance. Les deux flux sont couplés à la résolution complète de l'image grâce aux résidus. Sans étapes de traitement supplémentaires et sans pré-entraînement, notre approche atteint un score d'intersection sur union (IoU) de 71,8 % sur le jeu de données Cityscapes.