HyperAIHyperAI
vor 2 Monaten

Mask3D: Mask Transformer für die 3D semantische Instanzsegmentierung

Schult, Jonas ; Engelmann, Francis ; Hermans, Alexander ; Litany, Or ; Tang, Siyu ; Leibe, Bastian
Mask3D: Mask Transformer für die 3D semantische Instanzsegmentierung
Abstract

Moderne Ansätze für die 3D semantische Instanzsegmentierung basieren überwiegend auf spezialisierten Abstimmungsmechanismen, gefolgt von sorgfältig entwickelten geometrischen Clustertechniken. Indem wir uns auf die Erfolge jüngerer Transformer-basierter Methoden für Objekterkennung und Bildsegmentierung stützen, schlagen wir den ersten Transformer-basierten Ansatz für die 3D semantische Instanzsegmentierung vor. Wir zeigen, dass generische Transformer-Bausteine verwendet werden können, um Instanzmasken direkt aus 3D-Punktwolken zu prognostizieren. In unserem Modell, dem Mask3D, wird jede Objektinstanz als eine Instanzerkennungsabfrage dargestellt. Durch den Einsatz von Transformer-Decodern lernen die Instanzerkennungsabfragen durch iterative Aufmerksamkeit an Punktwolkenmerkmalen in mehreren Skalen. In Kombination mit Punktmerkmalen erzeugen die Instanzerkennungsabfragen alle Instanzmasken parallel. Mask3D bietet gegenüber aktuellen Standesder Technik-Methoden mehrere Vorteile, da es weder (1) auf Abstimmungsschemata angewiesen ist, die manuell ausgewählte geometrische Eigenschaften (wie Zentren) benötigen, noch (2) auf geometrische Gruppierungsmechanismen, die manuell justierte Hyperparameter (z.B. Radien) erfordern, und (3) es ermöglicht eine Verlustfunktion, die Instanzmasken direkt optimiert. Mask3D setzt einen neuen Stand der Technik in den Tests von ScanNet (+6,2 mAP), S3DIS 6-fach (+10,1 mAP), STPLS3D (+11,2 mAP) und ScanNet200 Test (+12,4 mAP).

Mask3D: Mask Transformer für die 3D semantische Instanzsegmentierung | Neueste Forschungsarbeiten | HyperAI