Apprentissage de boîtes englobantes d'objets pour le segmention d'instances 3D sur des nuages de points

Nous proposons un cadre novateur, conceptuellement simple et général pour la segmentation d'instances sur des nuages de points 3D. Notre méthode, appelée 3D-BoNet, s'appuie sur la philosophie de conception simple des perceptrons multicouches (MLPs) par point. Ce cadre régresse directement des boîtes englobantes 3D pour toutes les instances présentes dans un nuage de points, tout en prédissant un masque au niveau du point pour chaque instance. Il se compose d'un réseau principal suivi de deux branches de réseau parallèles pour 1) la régression des boîtes englobantes et 2) la prédiction des masques de points. 3D-BoNet est mono-étape, sans ancres et peut être entraîné de manière end-to-end. De plus, il est remarquablement efficace sur le plan computationnel car, contrairement aux approches existantes, il ne nécessite aucune étape de post-traitement telle que la suppression non maximale, l'échantillonnage de caractéristiques, le regroupement ou le vote. Des expériences approfondies montrent que notre approche dépasse les travaux existants sur les jeux de données ScanNet et S3DIS tout en étant environ 10 fois plus efficace sur le plan computationnel. Des études d'ablation exhaustives démontrent l'efficacité de notre conception.