Tous les voxels ne sont pas égaux : complétion sémantique de scène perspective point-voxel

Dans cet article, nous revisitons la tâche de complétion sémantique de scène (Semantic Scene Completion, SSC), qui vise à prédire la représentation sémantique et d’occupation des scènes 3D. De nombreuses méthodes existantes reposent sur des représentations de scène discrétisées en voxels afin de préserver la structure locale de la scène. Toutefois, en raison de la présence de voxels vides visibles, ces approches souffrent d’une importante redondance computationnelle lorsque le réseau s’approfondit, ce qui limite en fin de compte la qualité de la complétion. Pour surmonter ce dilemme, nous proposons un nouveau réseau d’agrégation point-voxel pour cette tâche. Premièrement, nous convertissons les scènes en voxels en nuages de points en éliminant les voxels vides visibles, puis nous utilisons un flux profond de points pour capturer efficacement les informations sémantiques à partir de la scène. Parallèlement, un flux léger basé sur seulement deux couches de convolution 3D préserve les structures locales des scènes discrétisées en voxels. En outre, nous concevons un opérateur d’agrégation anisotrope de voxels afin de fusionner les détails structurels provenant du flux voxel dans le flux de points, ainsi qu’un module de propagation conscient de la sémantique pour améliorer le processus de suréchantillonnage dans le flux de points à l’aide d’étiquettes sémantiques. Nous démontrons que notre modèle surpasser largement les états de l’art sur deux benchmarks, en ne nécessitant comme entrée que des images en profondeur.