Le haut vers le bas bat le bas vers le haut dans la segmentation d'instances 3D

La plupart des méthodes de segmentation d'instances 3D exploitent une stratégie bottom-up, généralement accompagnée d'un post-traitement coûteux en ressources. Pour le regroupement de points, ces approches bottom-up reposent sur des hypothèses a priori concernant les objets, exprimées sous forme de hyperparamètres spécifiques au domaine, qui doivent être soigneusement ajustés. À l'inverse, nous abordons la segmentation d'instances 3D via TD3D : la première méthode entièrement convolutive, sans regroupement (cluster-free) et entièrement pilotée par les données, entraînée de manière end-to-end. Il s'agit de la première approche top-down à surpasser les méthodes bottom-up dans le domaine 3D. Grâce à son pipeline simple et direct, TD3D démontre une précision et une capacité de généralisation remarquables sur les benchmarks standards en intérieur : ScanNet v2, son extension ScanNet200, ainsi que S3DIS, ainsi que sur le jeu de données aérien STPLS3D. En outre, notre méthode est nettement plus rapide en phase d'inférence que les approches actuelles basées sur le regroupement : notre version phare est 1,9 fois plus rapide que la méthode bottom-up la plus précise, tout en étant plus précise, tandis que notre version accélérée atteint une précision de pointe, avec un gain de vitesse de 2,6 fois. Le code est disponible à l'adresse suivante : https://github.com/SamsungLabs/td3d.