OneFormer3D : Un Transformer unique pour la segmentation unifiée des nuages de points

La segmentation sémantique, instance et panoptique des nuages de points 3D a été abordée jusqu’à présent à l’aide de modèles spécifiques à chaque tâche, conçus de manière distincte. En conséquence, la similarité entre toutes ces tâches de segmentation et les relations implicites qui les lient n’ont pas été exploitées efficacement. Ce papier présente un modèle unifié, simple et efficace, capable de traiter conjointement ces trois tâches. Le modèle, nommé OneFormer3D, réalise de manière cohérente la segmentation instance et sémantique à l’aide d’un ensemble de noyaux apprenables, chacun étant chargé de générer un masque pour une instance ou une catégorie sémantique. Ces noyaux sont entraînés à l’aide d’un décodeur basé sur un transformateur, alimenté par des requêtes unifiées pour les instances et les catégories sémantiques. Cette architecture permet d’entraîner le modèle de manière end-to-end en une seule exécution, permettant ainsi d’atteindre des performances de pointe sur les trois tâches de segmentation simultanément. En particulier, notre OneFormer3D obtient la première place et établit un nouveau record sur le classement de test de ScanNet (+2,1 mAP50). Nous démontrons également des résultats d’état de l’art pour la segmentation sémantique, instance et panoptique sur les jeux de données ScanNet (+21 PQ), ScanNet200 (+3,8 mAP50) et S3DIS (+0,8 mIoU).