NDC-Scene : Amélioration de la complétion sémantique 3D monulaire dans l'espace des coordonnées normalisées de l'appareil

La complétion monulaire 3D de scènes sémantiques (SSC) a suscité une attention considérable ces dernières années en raison de sa capacité à prédire des sémantiques complexes et des formes géométriques à partir d'une seule image, sans nécessiter d'entrées 3D. Dans cet article, nous identifions plusieurs problèmes critiques dans les méthodes actuelles de pointe, notamment l'ambiguïté des caractéristiques projetées 2D le long du rayon dans l'espace 3D, l'ambiguïté de la pose lors de la convolution 3D, et l'asymétrie des calculs lors de la convolution 3D à différents niveaux de profondeur. Pour résoudre ces problèmes, nous avons conçu un nouveau réseau de complétion de scènes en coordonnées normalisées d'appareil (NDC-Scene) qui étend directement la carte de caractéristiques 2D à un espace en coordonnées normalisées d'appareil (NDC), plutôt qu'à l'espace du monde directement, par une restauration progressive de la dimension de profondeur grâce à des opérations de déconvolution. Les résultats expérimentaux montrent que le transfert d'une grande partie des calculs depuis l'espace cible 3D vers l'espace proposé en coordonnées normalisées d'appareil bénéficie aux tâches SSC monulaires. De plus, nous avons conçu un décodeur dual adaptatif à la profondeur pour up-sampler et fusionner simultanément les cartes de caractéristiques 2D et 3D, ce qui améliore encore davantage les performances globales. Nos expériences approfondies confirment que notre méthode proposée surpasse constamment les méthodes actuelles de pointe sur les jeux de données SemanticKITTI (en extérieur) et NYUv2 (en intérieur). Notre code est disponible sur https://github.com/Jiawei-Yao0812/NDCScene.