Complétion sémantique de scène à l’aide de fonctions implicites profondes locales sur des données LiDAR

La complétion sémantique de scène consiste à estimer conjointement la géométrie 3D et les propriétés sémantiques des objets et des surfaces au sein d’un volume donné. Il s’agit d’une tâche particulièrement difficile sur des données du monde réel, souvent éparses et partiellement occluées. Nous proposons un réseau de segmentation de scène basé sur des fonctions implicites profondes locales, une nouvelle méthode d’apprentissage automatique pour la complétion de scène. Contrairement aux approches antérieures, notre méthode génère une représentation continue de la scène, indépendante de la voxelisation. Nous encodons les nuages de points bruts dans un espace latent de manière locale et à plusieurs résolutions spatiales. Une fonction globale de complétion de scène est ensuite construite à partir de ces patches fonctionnels localisés. Nous démontrons que cette représentation continue est adaptée pour encoder à la fois les propriétés géométriques et sémantiques de scènes extérieures étendues, sans recourir à une discrétisation spatiale (évitant ainsi le compromis entre le niveau de détail de la scène et l’étendue couverte).Nous entraînons et évaluons notre méthode sur des scans LiDAR annotés sémantiquement provenant du jeu de données Semantic KITTI. Nos expériences montrent que notre approche génère une représentation puissante, pouvant être décodée en une description 3D dense de la scène. Les résultats de notre méthode surpassent l’état de l’art sur le benchmark de complétion de scène Semantic KITTI, en termes d’intersection sur union (IoU) pour la complétion géométrique.