RDFNet: RGB-D Mehrstufige residuelle Merkmalsfusion für die Innenraum-Semantische Segmentierung

Bei der mehrklassigen semantischen Segmentierung im Innenraum unter Verwendung von RGB-D-Daten hat sich gezeigt, dass die Integration von Tiefeninformationen in RGB-Features zur Verbesserung der Segmentierungsgenauigkeit beiträgt. Bisherige Studien haben jedoch das volle Potenzial der multimodalen Merkmalsfusion nicht ausgeschöpft, beispielsweise durch einfaches Verketten von RGB- und Tiefen-Features oder durch Mittelwertbildung von RGB- und Tiefen-Score-Karten. Um die optimale Fusion multimodaler Merkmale zu lernen, präsentiert dieser Artikel ein neuartiges Netzwerk, das die zentrale Idee des Residual-Lernens auf die semantische Segmentierung mit RGB-D-Daten erweitert. Unser Netzwerk erfasst effizient mehrstufige RGB-D-CNN-Merkmale durch die Einbindung von multimodalen Merkmalsfusionsblöcken und mehrstufigen Merkmalsverfeinerungsblöcken. Die Fusionsblöcke lernen residielle RGB- und Tiefen-Features sowie deren Kombinationen, um die komplementären Eigenschaften von RGB- und Tiefendaten vollständig auszunutzen. Die Verfeinerungsblöcke lernen die Kombination der gefilterten Merkmale aus mehreren Stufen, um präzise, hochauflösende Vorhersagen zu ermöglichen. Durch vollständige Ausnutzung von Skip-Verbindungen kann unser Netzwerk diskriminative, mehrstufige Merkmale jeder Modality effizient end-to-end trainieren. Umfassende Experimente zeigen, dass die vorgeschlagene Architektur die aktuell beste Genauigkeit auf zwei anspruchsvollen RGB-D-Innenraum-Datensätzen, NYUDv2 und SUN RGB-D, erreicht.