SCPNet : Complétion de scène sémantique sur nuage de points

L'entraînement de modèles profonds pour la complétion sémantique de scènes (SSC) est un défi en raison de l'entrée éparses et incomplètes, de la grande quantité d'objets à des échelles diverses, ainsi que du bruit intrinsèque dans les étiquettes des objets en mouvement. Pour relever ces défis, nous proposons trois solutions : 1) Redesign du sous-réseau de complétion. Nous concevons un nouveau sous-réseau de complétion basé sur plusieurs Blocs à Chemins Multiples (MPB), permettant d’agréger des caractéristiques multi-échelles tout en évitant les opérations de downsampling perdantes. 2) Distillation de connaissances riches à partir d’un modèle multi-images. Nous proposons une nouvelle méthode de distillation de connaissances, nommée Dense-to-Sparse Knowledge Distillation (DSKD), qui transfère des connaissances sémantiques riches et relationnelles, issues d’un modèle enseignant multi-images, vers un modèle étudiant mono-image, améliorant significativement l’apprentissage des représentations du modèle mono-image. 3) Rectification des étiquettes de complétion. Nous introduisons une stratégie simple mais efficace de rectification des étiquettes, utilisant des étiquettes de segmentation panoptique disponibles en tant qu’outils pour éliminer les traces des objets dynamiques dans les étiquettes de complétion, ce qui améliore considérablement les performances des modèles profonds, en particulier pour les objets en mouvement. Des expériences étendues sont menées sur deux benchmarks publics de SSC, à savoir SemanticKITTI et SemanticPOSS. Notre modèle SCPNet obtient la première place dans le défi de complétion sémantique de scènes sur SemanticKITTI, dépassant S3CNet, un modèle concurrent, de 7,2 points de mIoU. SCPNet surpasse également les algorithmes précédents sur le jeu de données SemanticPOSS. En outre, notre méthode obtient des résultats compétitifs sur les tâches de segmentation sémantique de SemanticKITTI, démontrant que les connaissances acquises dans la complétion de scène sont bénéfiques pour la segmentation.