Segmentation d'instances dans des scènes 3D à l'aide de réseaux d'arbres de superpoints sémantiques

La segmentation d'instances en 3D est fondamentale dans de nombreuses applications de compréhension de scènes. Elle reste toutefois un défi en raison de facteurs complexes tels que l'irrégularité des données et l'incertitude du nombre d'instances. Les méthodes de pointe s'appuient largement sur une pipeline générale qui apprend d'abord des caractéristiques ponctuelles discriminantes au niveau sémantique et d'instance, suivie d'une étape distincte de regroupement ponctuel pour proposer des instances d'objets. Bien que prometteuses, ces approches souffrent de deux inconvénients majeurs : (1) la deuxième étape n'est pas supervisée par l'objectif principal de la segmentation d'instances, et (2) leur apprentissage des caractéristiques ponctuelles et leur regroupement sont moins efficaces face aux irrégularités des données, pouvant entraîner des segmentation fragmentées. Pour surmonter ces limitations, nous proposons dans ce travail une solution end-to-end, nommée Semantic Superpoint Tree Network (SSTNet), pour proposer des instances d'objets à partir des points d'une scène. L'élément clé de SSTNet est un arbre intermédiaire, appelé arbre de superpoints sémantiques (SST), construit à partir des caractéristiques sémantiques apprises des superpoints, et qui est parcouru et divisé aux nœuds intermédiaires afin de proposer des instances d'objets. Nous avons également conçu dans SSTNet un module de raffinement, nommé CliqueNet, destiné à éliminer les superpoints susceptibles d’être incorrectement regroupés dans des propositions d’instances. Des expériences menées sur les benchmarks ScanNet et S3DIS démontrent l’efficacité de notre méthode. Au moment de la soumission, SSTNet se classe en tête du classement ScanNet (V2), avec un mAP supérieur de 2 % à celui de la deuxième meilleure méthode. Le code source, implémenté en PyTorch, est disponible à l’adresse suivante : https://github.com/Gorilla-Lab-SCUT/SSTNet.