ISBNet: Ein 3D-Punktwolken-Instanzsegmentierungsnetzwerk mit instanzbewusstem Sampling und boxbewusster dynamischer Faltung

Bestehende Methoden zur 3D-Instanzsegmentierung basieren überwiegend auf einem Bottom-up-Ansatz – einem manuell feinabgestimmten Algorithmus zur Gruppierung von Punkten zu Clustern, gefolgt von einem Nachbearbeitungsnetzwerk zur Verfeinerung. Diese Ansätze sind jedoch anfällig für fehlerhafte Ergebnisse, wenn (1) benachbarte Objekte derselben semantischen Klasse eng zusammenliegen oder (2) große Objekte mit lose verbundenen Regionen vorliegen, da sie stark von der Qualität der Clustering-Ergebnisse abhängen. Um diese Einschränkungen zu überwinden, stellen wir ISBNet vor, eine neuartige clusterfreie Methode, die Instanzen als Kerne darstellt und Instanzmasken mittels dynamischer Konvolution decodiert. Um effizient hochrecall- und diskriminative Kerne zu generieren, schlagen wir eine einfache Strategie namens Instance-aware Farthest Point Sampling vor, um Kandidaten zu wählen, und nutzen eine lokale Aggregationsschicht, die von PointNet++ inspiriert ist, um Kandidatenmerkmale zu kodieren. Zudem zeigen wir, dass die Vorhersage und Nutzung von 3D-ausgerichteten Achsen-Align-Bounding-Boxes innerhalb der dynamischen Konvolution die Leistung weiter verbessert. Unsere Methode erreicht neue State-of-the-Art-Ergebnisse auf ScanNetV2 (55,9), S3DIS (60,8) und STPLS3D (49,2) hinsichtlich AP und behält dabei eine schnelle Inferenzzeit (237 ms pro Szene auf ScanNetV2). Der Quellcode und die trainierten Modelle sind unter https://github.com/VinAIResearch/ISBNet verfügbar.