PointCT : Réseau Transformer Centralisé sur les Points pour la segmentation sémantique de nuages de points à supervision faible

Bien que la segmentation des nuages de points joue un rôle fondamental dans la compréhension 3D, l’étiquetage de scènes à grande échelle pour cette tâche peut s’avérer coûteux et chronophage. Pour résoudre ce problème, nous proposons Point Central Transformer (PointCT), un nouveau réseau transformer entraînable end-to-end pour la segmentation sémantique faiblement supervisée des nuages de points. À la différence des approches antérieures, notre méthode aborde les défis liés aux annotations limitées de points exclusivement à partir de points 3D, grâce à une attention basée sur des points centraux. En exploitant deux processus d’encodage, notre mécanisme d’attention intègre efficacement des caractéristiques globales au sein des voisinages, améliorant ainsi de manière significative la représentation des points non étiquetés. Parallèlement, les interactions entre les points centraux et leurs voisinages distincts sont renforcées de manière bidirectionnelle. Une encodage de position est également appliqué pour préserver les caractéristiques géométriques et améliorer les performances globales. Notamment, PointCT obtient des résultats exceptionnels sous diverses configurations d’étiquetage de points, sans nécessiter de supervision supplémentaire. Des expériences étendues sur les jeux de données publics S3DIS, ScanNet-V2 et STPLS3D démontrent clairement l’avantage de notre approche par rapport aux méthodes de pointe actuelles.