MaskGroup : regroupement hiérarchique de points et masquage pour la segmentation d'instances 3D

Cette étude traite du problème de la segmentation d’instances 3D, qui présente de nombreuses applications dans le monde réel, telles que la robotique et la réalité augmentée. Étant donné la complexité élevée des environnements entourant les objets 3D, la séparation de ces derniers s’avère particulièrement difficile. Pour relever ce défi, nous proposons un cadre novateur visant à regrouper et à affiner les instances 3D. En pratique, nous apprenons d’abord un vecteur de décalage pour chaque point, que nous déplaçons vers le centre prédit de son instance. Afin d’améliorer le regroupement de ces points, nous introduisons un algorithme de regroupement hiérarchique des points, permettant de fusionner progressivement les points regroupés autour de leurs centres. Tous les points sont initialement regroupés en petits clusters, qui subissent ensuite une procédure de regroupement itérative pour former des groupes de plus grande taille. Ces groupes multi-échelles sont exploités pour la prédiction des instances, ce qui est particulièrement avantageux pour la détection d’instances de tailles variées. En outre, nous développons un nouveau réseau, appelé MaskScoreNet, qui génère des masques binaires pour ces groupes, afin de raffiner ultérieurement les résultats de segmentation. Des expériences étendues menées sur les benchmarks ScanNetV2 et S3DIS démontrent l’efficacité de la méthode proposée. Par exemple, notre approche atteint un mAP de 66,4 % avec un seuil d’IoU de 0,5 sur le jeu de test ScanNetV2, soit une amélioration de 1,9 % par rapport à la méthode de l’état de l’art.