Command Palette
Search for a command to run...
Superpoint Transformer für die 3D-Szenen-Instanzsegmentierung
Superpoint Transformer für die 3D-Szenen-Instanzsegmentierung
Jiahao Sun Chunmei Qing Junpeng Tan Xiangmin Xu
Zusammenfassung
Die meisten bestehenden Methoden realisieren die 3D-Instanzsegmentierung, indem sie Modelle für die 3D-Objekterkennung oder die 3D-Semantiksegmentierung erweitern. Diese indirekten Ansätze leiden jedoch unter zwei Nachteilen: Erstens begrenzen ungenaue Bounding Boxes oder unzufriedenstellende semantische Vorhersagen die Gesamtleistung des 3D-Instanzsegmentierungsframeworks. Zweitens erfordern bestehende Methoden einen zeitaufwändigen Zwischenschritt der Aggregation. Um diese Probleme zu lösen, schlägt dieser Artikel eine neuartige end-to-end 3D-Instanzsegmentierungsmethode basierend auf dem Superpoint Transformer, namens SPFormer, vor. Diese Methode gruppiert potenzielle Merkmale aus Punktewolken zu Superpunkten und prognostiziert direkt Instanzen über Abfragesignale, ohne auf die Ergebnisse der Objekterkennung oder Semantiksegmentierung angewiesen zu sein. Der entscheidende Schritt in diesem Framework ist ein neuartiger Abfragedekoder mit Transformers, der über den Superpoint-Cross-Attention-Mechanismus Instanzinformationen erfassen und die Superpoint-Masken der Instanzen generieren kann. Durch eine bipartite Zuordnung basierend auf Superpoint-Masken kann SPFormer das Netzwerktraining ohne den Zwischenschritt der Aggregation durchführen, was die Geschwindigkeit des Netzwerks erheblich steigert. Umfangreiche Experimente auf den Benchmarks ScanNetv2 und S3DIS bestätigen, dass unsere Methode sowohl kompakt als auch effizient ist. Insbesondere übertrifft SPFormer im Vergleich zu aktuellen State-of-the-Art-Methoden die Leistung um 4,3 % auf dem versteckten Testset von ScanNetv2 hinsichtlich mAP und erreicht gleichzeitig eine schnelle Inferenzgeschwindigkeit (247 ms pro Frame). Der Quellcode ist unter https://github.com/sunjiahao1999/SPFormer verfügbar.