Cartographie Monoculaire par Grille d'Occupation Sémantique avec des Réseaux de Neurones Encodeur-Décodeur Variationnels Convolutifs

Dans cette étude, nous menons des recherches et évaluons l'apprentissage de bout en bout de cartes d'occupation sémantique-métrique monoculaire à partir d'une vérité terrain binoculaire faiblement supervisée. Le réseau apprend à prédire quatre classes, ainsi qu'une transformation de la vue caméra à la vue oiseau. Au cœur du système, il utilise un réseau encodeur-décodeur variationnel qui encode les informations visuelles de la scène de conduite en vue frontale, puis les décode dans un système de coordonnées cartésiennes en vue supérieure bidimensionnelle. Les évaluations sur Cityscapes montrent que l'apprentissage de bout en bout des cartes d'occupation sémantique-métrique surpassent l'approche de cartographie déterministe basée sur l'hypothèse d'un plan horizontal par plus de 12 % en moyenne du coefficient IoU (Intersection over Union). De plus, nous démontrons que l'échantillonnage variationnel avec un vecteur d'embedding relativement petit confère une robustesse face aux perturbations dynamiques des véhicules et une généralisation pour les données KITTI inédites. Notre réseau atteint des taux d'inférence temps réel d'environ 35 Hz pour une image d'entrée avec une résolution de 256x512 pixels et une carte de sortie composée de 64x64 cellules d'occupation, utilisant une GPU Titan V.