Formation de réseaux de neurones convolutifs sur plusieurs jeux de données hétérogènes pour la segmentation sémantique des scènes de rue

Nous proposons un réseau de neurones convolutifs avec des classifieurs hiérarchiques pour la segmentation sémantique par pixel, capable d'être entraîné sur plusieurs jeux de données hétérogènes et d'exploiter leur hiérarchie sémantique. Notre réseau est le premier à être simultanément entraîné sur trois jeux de données différents du domaine des véhicules intelligents, à savoir Cityscapes, GTSDB et Mapillary Vistas, et il est capable de gérer différents niveaux de détail sémantique, des déséquilibres de classe et différents types d'annotations, c'est-à-dire des étiquettes denses par pixel et des étiquettes de boîtes englobantes éparse (sparse bounding-box labels). Nous évaluons notre approche hiérarchique en la comparant à des classifieurs plats, non hiérarchiques, et nous montrons une amélioration de 13,0 % en précision moyenne par pixel pour les classes Cityscapes, 2,4 % pour les classes Vistas et 32,3 % pour les classes GTSDB. Notre implémentation atteint des taux d'inférence de 17 images par seconde (fps) à une résolution de 520x706 pour 108 classes exécutées sur une GPU.