ISBNet : un réseau de segmentation d'instances de nuages de points 3D avec un échantillonnage conscient des instances et une convolution dynamique consciente des boîtes englobantes

Les méthodes existantes de segmentation d’instances 3D sont principalement fondées sur une approche bottom-up : un algorithme manuellement ajusté regroupe les points en clusters, suivi d’un réseau de raffinement. Toutefois, en s’appuyant sur la qualité des clusters, ces méthodes produisent des résultats sensibles aux situations suivantes : (1) objets proches appartenant à la même classe sémantique regroupés ensemble, ou (2) objets volumineux dont les régions sont faiblement connectées. Pour surmonter ces limitations, nous introduisons ISBNet, une nouvelle méthode sans clustering qui représente les instances par des noyaux et décode les masques d’instances via une convolution dynamique. Pour générer efficacement des noyaux à haute couverture (high-recall) et discriminants, nous proposons une stratégie simple appelée Instance-aware Farthest Point Sampling pour échantillonner les candidats, ainsi qu’une couche d’agrégation locale inspirée de PointNet++ pour encoder les caractéristiques des candidats. De plus, nous démontrons que la prédiction et l’utilisation des boîtes englobantes alignées sur les axes 3D dans la convolution dynamique améliorent davantage les performances. Notre méthode établit de nouveaux records sur ScanNetV2 (55,9), S3DIS (60,8) et STPLS3D (49,2) en termes d’AP, tout en conservant un temps d’inférence rapide (237 ms par scène sur ScanNetV2). Le code source et les modèles entraînés sont disponibles à l’adresse suivante : https://github.com/VinAIResearch/ISBNet.