Réseaux de convolution anisotropes pour l'achèvement sémantique de scènes 3D

En tant que tâche d'étiquetage voxel par voxel, la complétion sémantique de scène (SSC) tente d'inférer simultanément l'occupation et les étiquettes sémantiques d'une scène à partir d'une seule image de profondeur et/ou RGB. Le défi majeur de la SSC réside dans la façon dont elle peut efficacement tirer parti du contexte 3D pour modéliser divers objets ou éléments avec des variations importantes en termes de formes, de dispositions et de visibilité. Pour gérer ces variations, nous proposons un nouveau module appelé convolution anisotrope, qui possède une flexibilité et une puissance impossibles à atteindre par les méthodes concurrentes telles que la convolution 3D standard et certaines de ses variantes. Contrairement à la convolution 3D standard, limitée à un champ récepteur 3D fixe, notre module est capable de modéliser l'anisotropie dimensionnelle voxel par voxel. L'idée fondamentale consiste à permettre un champ récepteur 3D anisotrope en décomposant une convolution 3D en trois convolutions 1D consécutives, dont la taille du noyau est déterminée de manière adaptative en temps réel pour chaque convolution 1D. En empilant plusieurs modules de convolution anisotrope, la capacité de modélisation voxel par voxel peut être encore améliorée tout en maintenant un nombre contrôlable de paramètres du modèle. Des expériences approfondies sur deux benchmarks de SSC, NYU-Depth-v2 et NYUCAD, montrent les performances supérieures de notre méthode proposée. Notre code est disponible à l'adresse suivante : https://waterljwant.github.io/SSC/