HyperAIHyperAI
il y a 17 jours

Transformateur pour la segmentation panoptique de nuages de points guidée par la position

Zeqi Xiao, Wenwei Zhang, Tai Wang, Chen Change Loy, Dahua Lin, Jiangmiao Pang
Transformateur pour la segmentation panoptique de nuages de points guidée par la position
Résumé

DEtection TRansformer (DETR) a lancé une tendance consistant à utiliser un ensemble de requêtes apprenables pour une perception visuelle unifiée. Ce travail commence par appliquer ce paradigme séduisant à la segmentation de nuages de points basée sur LiDAR, aboutissant à une base simple mais efficace. Bien que l’adaptation naïve donne des résultats satisfaisants, la performance en segmentation d’instances reste nettement inférieure à celle des méthodes précédentes. En examinant plus en détail, nous observons que les instances présentes dans les nuages de points épars sont relativement petites par rapport à la scène globale, présentent souvent des géométries similaires, mais manquent de caractéristiques visuelles distinctes pour la segmentation — une situation rare dans le domaine des images. Étant donné que les instances en 3D sont davantage caractérisées par leurs informations de position, nous mettons l’accent sur leur rôle dans le processus de modélisation et proposons une Embedding positionnel robuste à paramètres mixtes (MPE, Mixed-parameterized Positional Embedding), destiné à guider le processus de segmentation. Cette MPE est intégrée aux caractéristiques du modèle principal (backbone) et guide de manière itérative les processus de prédiction de masques et de mise à jour des requêtes, conduisant ainsi à une segmentation consciente de la position (PA-Seg, Position-Aware Segmentation) et à une attention focalisée masquée (MFA, Masked Focal Attention). Toutes ces innovations incitent les requêtes à se concentrer sur des régions spécifiques et à identifier efficacement différentes instances. La méthode, nommée Position-guided Point cloud Panoptic segmentation transFormer (P3Former), dépasse les méthodes d’état de l’art précédentes de 3,4 % et 1,2 % en PQ sur les benchmarks SemanticKITTI et nuScenes, respectivement. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/SmartBot-PJLab/P3Former.