ShapeConv: shapebewusste convolutionale Schicht für die semantische Segmentierung von Innenräumen mit RGB-D-Daten

Die semantische Segmentierung mit RGB-D-Daten hat in den letzten Jahren zunehmend an Aufmerksamkeit gewonnen. Die meisten bestehenden Methoden setzen homogene Faltungsoperatoren ein, um sowohl die RGB- als auch die Tiefenmerkmale zu verarbeiten, wobei ihre inhärenten Unterschiede vernachlässigt werden. Tatsächlich erfassen die RGB-Werte die photometrischen Erscheinungseigenschaften im Projektionsbildraum, während die Tiefenmerkmale sowohl die Form einer lokalen Geometrie als auch deren Basis (Position) im größeren Kontext kodieren. Im Vergleich zur Basis ist die Form wahrscheinlich inhärenter und eng mit der Semantik verknüpft, weshalb sie für die Genauigkeit der Segmentierung besonders kritisch ist. Ausgehend von dieser Beobachtung führen wir eine shape-aware Faltungsschicht (ShapeConv) zur Verarbeitung der Tiefenmerkmale ein, bei der das Tiefenmerkmal zunächst in eine Formkomponente und eine Basiskomponente zerlegt wird. Anschließend werden zwei lernbare Gewichte eingeführt, die jeweils unabhängig mit diesen Komponenten interagieren, und schließlich wird eine Faltung auf die neu gewichtete Kombination beider Komponenten angewendet. ShapeConv ist modellunabhängig und kann problemlos in die meisten CNNs integriert werden, um herkömmliche Faltungsschichten für die semantische Segmentierung zu ersetzen. Umfangreiche Experimente an drei anspruchsvollen Benchmarks für innenraumbasierte RGB-D-Segmentierung – nämlich NYU-Dv2(-13,-40), SUN RGB-D und SID – belegen die Wirksamkeit von ShapeConv, wenn es auf fünf gängige Architekturen angewendet wird. Zudem wird die Leistung von CNNs mit ShapeConv gesteigert, ohne dass sich die Berechnungs- oder Speicheranforderungen im Inferenzphase erhöhen. Der Grund hierfür ist, dass die lernbaren Gewichte zur Balancierung der Bedeutung zwischen Form- und Basiskomponente in ShapeConv im Inferenzschritt konstant werden und somit in die nachfolgende Faltung integriert werden können, was ein Netzwerk ergibt, das einem mit herkömmlichen Faltungsschichten identisch ist.