RedNet: Residuelles Encoder-Decoder-Netzwerk für die semantische Segmentierung von indoor RGB-D-Daten

Die semantische Segmentierung von Innenräumen ist seit jeher eine schwierige Aufgabe im Bereich der Computer Vision. In dieser Arbeit schlagen wir eine RGB-D Residual Encoder-Decoder Architektur vor, die als RedNet bezeichnet wird, für die semantische Segmentierung von Innenräumen mit RGB-D Daten. In RedNet wird das Residual-Modul sowohl im Encoder als auch im Decoder als grundlegendes Bauteil verwendet, und Skip-Verbindungen werden eingesetzt, um die räumlichen Merkmale zwischen Encoder und Decoder zu überbrücken. Um die Tiefeninformationen der Szene zu integrieren, wurde eine Fusionsstruktur konstruiert, die getrennte Inferenz auf RGB-Bildern und Tiefenbildern durchführt und deren Merkmale über mehrere Schichten fusioniert. Um die Netzwerkparameter effizient zu optimieren, schlagen wir ein Trainingsschema namens „Pyramidenüberwachung“ (pyramid supervision) vor, das überwachte Lernen auf verschiedenen Schichten des Decoders anwendet, um das Problem des Verschwindens von Gradienten zu bewältigen. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene RedNet (ResNet-50) einen Stand-des-Wissens-MIoU-Akkuratzewert von 47,8 % auf dem SUN RGB-D Benchmark-Datensatz erreicht.