JSIS3D: Gemeinsame semantische und instanzbasierte Segmentierung von 3D-Punktwolken mit mehrfachaufgabenbasierten punktweisen Netzen und multivariaten bedingten Markovfeldern

Tiefes Lernen hat sich zu den bevorzugten Modellen für die meisten bildbasierten Aufgaben in 2D entwickelt. Allerdings ist dessen Potenzial bei mehreren Aufgaben im 3D-Raum, wie zum Beispiel der 3D-Szenenverstehens, noch nicht vollständig genutzt worden. In dieser Arbeit behandeln wir gemeinsam die Probleme der semantischen und instanzbezogenen Segmentierung von 3D-Punktwolken. Insbesondere entwickeln wir ein mehrfachaufgaben-basiertes punktweises Netzwerk, das gleichzeitig zwei Aufgaben durchführt: die Vorhersage der semantischen Klassen von 3D-Punkten und die Einbettung der Punkte in hochdimensionale Vektoren, sodass Punkte derselben Objektinstanz durch ähnliche Einbettungen repräsentiert werden. Anschließend schlagen wir ein Mehrwert-Modell des bedingten Markov-Zufallsfeldes (Conditional Random Field) vor, um die semantischen und instanzbezogenen Labels zu integrieren und das Problem der semantischen und instanzbezogenen Segmentierung als gemeinsame Optimierung der Labels im Feldmodell zu formulieren. Die vorgeschlagene Methode wurde gründlich evaluiert und mit bestehenden Methoden auf verschiedenen Indoor-Szene-Datensätzen, einschließlich S3DIS und SceneNN, verglichen. Die experimentellen Ergebnisse zeigten die Robustheit des vorgeschlagenen Verfahrens zur gemeinsamen semantisch-instanzbezogenen Segmentierung gegenüber seinen einzelnen Komponenten. Unsere Methode erzielte auch stand-of-the-art Ergebnisse bei der semantischen Segmentierung.