Réseau de décomposition dimensionnelle basé sur RGBD pour le complétion sémantique 3D de la scène

Les images RGB se distinguent des images de profondeur en apportant plus de détails sur les informations de couleur et de texture, qui peuvent être utilisées comme un complément vital à la profondeur pour améliorer les performances de la complétion sémantique 3D de scènes (SSC). La SSC combine la complétion de forme 3D (SC) et l'étiquetage sémantique de scènes, tandis que la plupart des méthodes existantes utilisent uniquement la profondeur comme entrée, ce qui entraîne une goulottage des performances. De plus, les méthodes d'avant-garde emploient des CNNs 3D qui possèdent des réseaux encombrants et un nombre considérable de paramètres. Nous présentons un réseau résiduel à décomposition dimensionnelle léger (DDR) pour les tâches de prédiction dense 3D. La nouvelle couche de convolution factorisée est efficace pour réduire le nombre de paramètres du réseau, et le mécanisme de fusion multi-échelle proposé pour les images de profondeur et d'RGB peut améliorer simultanément la précision de la complétion et du segmentage. Notre méthode montre d'excellentes performances sur deux jeux de données publics. Comparée à la méthode la plus récente SSCNet, nous obtenons une amélioration de 5,9 % en SC-IoU et de 5,7 % en SSC-IoU, tout en n'utilisant que 21 % des paramètres du réseau et 16,6 % des FLOPs par rapport à ceux utilisés par SSCNet.