3D-Szenen-Instanzsegmentierung mithilfe semantischer Superpoint-Tree-Netzwerke

Die Instanzsegmentierung in 3D-Szenen ist für viele Anwendungen im Bereich der Szenenverstehens von zentraler Bedeutung. Sie bleibt jedoch herausfordernd aufgrund der kombinierten Faktoren von Datenirregularität und Unsicherheit hinsichtlich der Anzahl der Instanzen. Moderne Ansätze basieren weitgehend auf einem allgemeinen Pipeline-Paradigma, das zunächst punktweise Merkmale lernt, die sowohl semantisch als auch instanzspezifisch diskriminierend sind, gefolgt von einem separaten Schritt zur Punktgruppierung zur Vorschlag von Objektinstanzen. Obwohl vielversprechend, weisen diese Methoden zwei wesentliche Nachteile auf: (1) der zweite Schritt wird nicht durch das Hauptziel der Instanzsegmentierung gesteuert, und (2) die Lernung punktweiser Merkmale sowie die Gruppierung sind weniger effektiv bei der Bewältigung von Datenirregularitäten, was zu fragmentierten Segmentierungen führen kann. Um diese Probleme anzugehen, stellen wir in dieser Arbeit eine end-to-end-Lösung namens Semantic Superpoint Tree Network (SSTNet) vor, die Objektinstanzen direkt aus Szenenpunkten vorschlägt. Kernstück von SSTNet ist ein intermediärer, semantischer Superpoint-Tree (SST), der auf den gelernten semantischen Merkmalen von Superpoints basiert und an intermediären Baumknoten durch Durchlaufen und Aufteilung zur Vorschlag von Objektinstanzen genutzt wird. Zusätzlich entwerfen wir in SSTNet ein Nachbearbeitungsmodul namens CliqueNet, das Superpoints prüft und solche entfernt, die möglicherweise falsch in Instanzvorschläge eingegliedert wurden. Experimente auf den Benchmarks ScanNet und S3DIS belegen die Wirksamkeit unseres vorgeschlagenen Ansatzes. Zum Zeitpunkt der Einreichung erreicht SSTNet die Spitzenposition auf dem ScanNet (V2)-Leaderboard, wobei die mAP um 2 Prozentpunkte höher ist als bei der zweitbesten Methode. Der Quellcode in PyTorch ist unter https://github.com/Gorilla-Lab-SCUT/SSTNet verfügbar.