Position-Guided Point Cloud Panoptic Segmentation Transformer

DEtection TRansformer (DETR) hat eine Trendrichtung eingeleitet, die eine Gruppe lernbarer Queries für eine einheitliche visuelle Wahrnehmung nutzt. In dieser Arbeit wird dieses ansprechende Paradigma erstmals auf die Segmentierung von LiDAR-basierten Punktwolken angewendet und liefert eine einfache, jedoch effektive Baseline. Obwohl die naive Anpassung zufriedenstellende Ergebnisse erzielt, ist die Leistung bei der Instanzsegmentierung deutlich schlechter als bei früheren Arbeiten. Durch eine detaillierte Analyse stellen wir fest, dass die Instanzen in den spärlichen Punktwolken im Verhältnis zur gesamten Szene relativ klein sind und oft ähnliche Geometrie aufweisen, aber fehlende charakteristische Erscheinungsmerkmale für die Segmentierung besitzen – ein Phänomen, das im Bildbereich selten ist. Da 3D-Instanzen stärker durch ihre räumliche Position gekennzeichnet sind, legen wir besonderen Wert auf deren Rolle im Modellierungsprozess und entwickeln eine robuste, gemischt-parametrisierte räumliche Einbettung (Mixed-parameterized Positional Embedding, MPE), die den Segmentierungsprozess leitet. Diese wird in die Backbone-Features integriert und leitet iterativ die Maskenvorhersage und die Aktualisierung der Queries an, was zu Position-aware Segmentierung (PA-Seg) und Masked Focal Attention (MFA) führt. Alle diese Entwürfe fördern die Fähigkeit der Queries, sich auf spezifische Regionen zu konzentrieren und verschiedene Instanzen zu identifizieren. Die vorgestellte Methode, benannt als Position-guided Point cloud Panoptic segmentation transFormer (P3Former), erreicht auf den Benchmarks SemanticKITTI und nuScenes jeweils 3,4 % und 1,2 % höhere PQ-Werte im Vergleich zu vorherigen State-of-the-Art-Verfahren. Der Quellcode und die Modelle sind unter https://github.com/SmartBot-PJLab/P3Former verfügbar.