Raumbezogene Informationsgesteuerte Faltung für Echtzeit-RGBD-Semantische Segmentierung

3D-Rauminformationen sind bekanntermaßen von Vorteil für die semantische Segmentierung. Die meisten bestehenden Methoden behandeln 3D-Raumdaten als zusätzliche Eingabe, was zu einem zweistromigen Segmentierungsnetzwerk führt, das RGB-Daten und 3D-Rauminformationen getrennt verarbeitet. Diese Herangehensweise erhöht die Inferenzzeit erheblich und begrenzt stark die Anwendbarkeit in Echtzeit-Szenarien. Um dieses Problem zu lösen, schlagen wir S-Conv (Spatial information guided Convolution) vor, eine Methode zur effizienten Integration von RGB-Features und 3D-Rauminformationen. S-Conv ermöglicht es, den Abstand der Abtastpunkte des Faltungs-Kernels gezielt durch die 3D-Rauminformationen zu steuern, wodurch die Empfindlichkeitsfelder der Faltungsschicht angepasst und der Geometrie-Transformationen besser Rechnung getragen wird. Zudem integriert S-Conv geometrische Informationen direkt in den Merkmalslernprozess, indem es räumlich adaptiv angepasste Faltungsgewichte erzeugt. Die Fähigkeit zur Wahrnehmung geometrischer Strukturen wird dabei erheblich verbessert, ohne dass sich die Anzahl der Parameter und der Rechenaufwand signifikant erhöhen. Wir integrieren S-Conv zudem in ein semantisches Segmentierungsnetzwerk, das wir Spatial information Guided convolutional Network (SGNet) nennen, welches sowohl Echtzeit-Inferenz als auch einen Stand der Technik (state-of-the-art)-Leistung auf den Datensätzen NYUDv2 und SUNRGBD erreicht.