3D Graph Neural Networks für RGBD-Semantische Segmentierung

Die RGBD-Semantische Segmentierung erfordert eine gemeinsame Schlussfolgerung aus 2D-Erscheinungsbild- und 3D-geometrischen Informationen. In diesem Artikel stellen wir ein 3D-Graphen-Neuronales Netzwerk (3DGNN) vor, das auf der Basis eines 3D-Punktwolken einen k-nächste-Nachbarn-Graphen aufbaut. Jeder Knoten im Graphen entspricht einer Gruppe von Punkten und ist mit einem versteckten Repräsentationsvektor verbunden, der ursprünglich mit einem Erscheinungsbild-Feature initialisiert wird, das mittels eines einstufigen CNN aus 2D-Bildern extrahiert wurde. Aufbauend auf rekurrenten Funktionen aktualisiert jeder Knoten dynamisch seine versteckte Repräsentation basierend auf dem aktuellen Zustand und eingehenden Nachrichten von seinen Nachbarn. Dieses Propagationsmodell wird über eine bestimmte Anzahl von Zeitschritten entfaltet, und die endgültige Knotenrepräsentation wird zur Vorhersage der semantischen Klasse jedes Pixels verwendet. Zur Trainingsphase nutzen wir die Rückpropagation durch die Zeit. Umfassende Experimente auf den Datensätzen NYUD2 und SUN-RGBD belegen die Wirksamkeit unseres Ansatzes.