SceneGraphFusion: Inkrementelle Vorhersage von 3D-Szenengraphen aus RGB-D-Sequenzen

Szenengraphen sind eine kompakte und explizite Darstellung, die erfolgreich in einer Vielzahl von Aufgaben zur 2D-Szenenverstehbarkeit eingesetzt wird. In dieser Arbeit wird ein Verfahren vorgestellt, das es ermöglicht, semantische Szenengraphen schrittweise aus einer 3D-Umgebung aufzubauen, basierend auf einer Folge von RGB-D-Bildern. Dazu aggregieren wir PointNet-Features von primitiven Szenenkomponenten mittels eines Graphen-Neuralen-Netzwerks. Außerdem stellen wir eine neuartige Aufmerksamkeitsmechanik vor, die sich besonders gut für partielle und fehlende Graphendaten eignet, wie sie in solchen inkrementellen Rekonstruktionszenarien auftreten. Obwohl das vorgeschlagene Verfahren ursprünglich für Subkarten der Szene konzipiert ist, zeigen wir, dass es auch auf gesamte 3D-Szenen übertragbar ist. Experimente belegen, dass unsere Methode bestehende Ansätze zur 3D-Szenengraph-Vorhersage deutlich übertrifft und gleichzeitig eine Genauigkeit erreicht, die mit anderen Methoden zur 3D-Semantik- und Panoptik-Segmentation vergleichbar ist, wobei die Verarbeitungsgeschwindigkeit bei 35 Hz liegt.