Scalable SoftGroup pour la segmentation d'instances 3D sur des nuages de points

Cet article présente un réseau appelé SoftGroup pour la segmentation d'instances 3D précise et évolutive. Les méthodes de pointe actuelles produisent d'abord des prédictions sémantiques rigides, suivies d'une étape de regroupement pour la segmentation des instances. Malheureusement, les erreurs issues de ces décisions rigides se propagent au cours du regroupement, entraînant un faible recouvrement entre les instances prédites et les vérités terrain, ainsi qu'un nombre important de faux positifs. Pour résoudre ces problèmes, SoftGroup permet à chaque point d’être associé à plusieurs classes, afin de réduire l’incertitude liée à la prédiction sémantique. Il supprime également les instances faussement détectées en apprenant à les catégoriser comme fond. En ce qui concerne l’évolutivité, les méthodes rapides existantes nécessitent un temps de calcul de l’ordre de plusieurs dizaines de secondes sur des scènes à grande échelle, ce qui est insatisfaisant et inapproprié pour des applications en temps réel. Nous constatons que le module $k$-Plus Proches Voisins ($k$-NN), qui constitue une étape préalable au regroupement, représente un goulot d’étranglement computationnel. SoftGroup est étendu pour résoudre ce goulot d’étranglement, donnant lieu à SoftGroup++. Le modèle proposé SoftGroup++ réduit la complexité temporelle grâce à un $k$-NN basé sur une octree, diminue l’espace de recherche par une mise à l’échelle pyramidale consciente des classes et introduit une dévoxélisation tardive. Les résultats expérimentaux sur diverses bases de données intérieures et extérieures démontrent l’efficacité et la généralité de SoftGroup et SoftGroup++. Leur performance dépasse largement celle du meilleur modèle de référence, avec une amélioration de 6 % à 16 % en AP$_{50}$. Sur des scènes à grande échelle, SoftGroup++ réalise en moyenne une accélération de 6 fois par rapport à SoftGroup. En outre, SoftGroup peut être étendu pour effectuer la détection d’objets et la segmentation panoptique, offrant des améliorations significatives par rapport aux méthodes existantes. Le code source et les modèles entraînés sont disponibles à l’adresse \url{https://github.com/thangvubk/SoftGroup}.