EdgeNet : Complétion sémantique de scène à partir d'une seule image RGB-D

La complétion sémantique de scène est la tâche qui consiste à prédire une représentation 3D complète de l'occupation volumétrique avec des étiquettes sémantiques correspondantes pour une scène à partir d'un seul point de vue. Les travaux précédents sur la complétion sémantique de scène à partir de données RGB-D utilisaient soit uniquement la profondeur, soit la profondeur combinée à la couleur en projetant l'image 2D dans le volume 3D, ce qui entraînait une représentation de données éparses. Dans cette étude, nous présentons une nouvelle stratégie pour encoder les informations de couleur dans l'espace 3D en utilisant la détection de contours et la distance signée tronquée inversée (flipped truncated signed distance). Nous introduisons également EdgeNet, une nouvelle architecture de réseau neuronal capable de traiter les caractéristiques générées par la fusion des informations de profondeur et de contours. Les résultats expérimentaux montrent une amélioration de 6,9 % par rapport au meilleur résultat actuel sur des données réelles, pour les approches end-to-end.