Les sols sont plats : Exploitation des sémantiques pour la prédiction en temps réel des normales de surface

Nous proposons quatre observations qui contribuent à améliorer de manière significative les performances des modèles d'apprentissage profond prédisant les normales de surface et les étiquettes sémantiques à partir d'une seule image RGB. Ces observations sont : (1) débruiter les normales de surface « ground truth » dans l'ensemble d'entraînement pour garantir leur cohérence avec les étiquettes sémantiques ; (2) entraîner simultanément sur un mélange de données réelles et synthétiques, plutôt que de pré-entraîner sur des données synthétiques puis de fine-tuner sur des données réelles ; (3) prédire conjointement les normales et les sémantiques en utilisant un modèle partagé, mais ne rétropropager les erreurs que sur les pixels ayant des étiquettes d'entraînement valides ; (4) alléger le modèle et utiliser des entrées en niveaux de gris au lieu de couleurs. Malgré la simplicité de ces étapes, nous démontrons une amélioration constante des résultats sur plusieurs jeux de données, en utilisant un modèle qui fonctionne à 12 images par seconde sur un téléphone mobile standard.