Amélioration de la segmentation sémantique par propagation vidéo et relaxation des étiquettes

La segmentation sémantique nécessite de grandes quantités d'annotations au niveau des pixels pour apprendre des modèles précis. Dans cet article, nous présentons une méthodologie basée sur la prédiction vidéo pour augmenter les ensembles d'entraînement en synthétisant de nouveaux échantillons d'entraînement afin d'améliorer la précision des réseaux de segmentation sémantique. Nous exploitons la capacité des modèles de prédiction vidéo à prédire les futures images pour également prédire les futurs labels. Une stratégie de propagation conjointe est également proposée pour atténuer les mauvais alignements dans les échantillons synthétisés. Nous démontrons que l'entraînement des modèles de segmentation sur des jeux de données augmentés par les échantillons synthétisés conduit à des améliorations significatives en termes de précision. De plus, nous introduisons une nouvelle technique de relaxation des labels de contour qui rend l'entraînement robuste aux bruits d'annotation et aux artefacts de propagation le long des contours des objets. Nos méthodes proposées atteignent des mIoUs (mean Intersection over Union) d'état de l'art de 83,5 % sur Cityscapes et 82,9 % sur CamVid. Notre modèle unique, sans ensemble de modèles, atteint un mIoU de 72,8 % sur l'ensemble de test de segmentation sémantique KITTI, surpassant ainsi l'entrée gagnante du défi ROB 2018. Notre code source et nos vidéos sont disponibles à l'adresse suivante : https://nv-adlr.github.io/publication/2018-Segmentation.