VoxFormer : Sparse Voxel Transformer pour l'achèvement sémantique 3D basé sur caméra

Les humains peuvent facilement imaginer la géométrie 3D complète des objets et des scènes occultés. Cette capacité séduisante est essentielle pour la reconnaissance et la compréhension. Pour doter les systèmes d'IA de cette capacité, nous proposons VoxFormer, un cadre de complétion sémantique de scènes basé sur le Transformer, capable de générer une sémantique volumétrique 3D complète à partir d'images 2D uniquement. Notre cadre adopte une conception en deux étapes : nous commençons par un ensemble éparse de requêtes visibles et occupées issues de l'estimation de profondeur, suivi d'une étape de densification qui génère des voxels 3D denses à partir des voxels éparse. Une idée clé de cette conception est que les caractéristiques visuelles sur les images 2D correspondent uniquement aux structures de scène visibles, plutôt qu'aux espaces occultés ou vides. Par conséquent, commencer par la featurisation et la prédiction des structures visibles est plus fiable. Une fois que nous avons obtenu l'ensemble de requêtes éparse, nous appliquons une conception d'autoencodeur masqué pour propager l'information à tous les voxels par auto-attention. Les expériences menées sur SemanticKITTI montrent que VoxFormer surpassent l'état de l'art avec une amélioration relative de 20,0 % en géométrie et de 18,1 % en sémantique, tout en réduisant la mémoire GPU nécessaire lors de l'entraînement à moins de 16 Go. Notre code est disponible sur https://github.com/NVlabs/VoxFormer.