RDFNet: RGB-D Mehrstufige residuelle Merkmalsfusion für die Innenraum-Semantische Segmentierung
{Ki-Sang Hong Seong-Jin Park Seungyong Lee}

Abstract
Bei der mehrklassigen semantischen Segmentierung im Innenraum unter Verwendung von RGB-D-Daten hat sich gezeigt, dass die Integration von Tiefeninformationen in RGB-Features zur Verbesserung der Segmentierungsgenauigkeit beiträgt. Bisherige Studien haben jedoch das volle Potenzial der multimodalen Merkmalsfusion nicht ausgeschöpft, beispielsweise durch einfaches Verketten von RGB- und Tiefen-Features oder durch Mittelwertbildung von RGB- und Tiefen-Score-Karten. Um die optimale Fusion multimodaler Merkmale zu lernen, präsentiert dieser Artikel ein neuartiges Netzwerk, das die zentrale Idee des Residual-Lernens auf die semantische Segmentierung mit RGB-D-Daten erweitert. Unser Netzwerk erfasst effizient mehrstufige RGB-D-CNN-Merkmale durch die Einbindung von multimodalen Merkmalsfusionsblöcken und mehrstufigen Merkmalsverfeinerungsblöcken. Die Fusionsblöcke lernen residielle RGB- und Tiefen-Features sowie deren Kombinationen, um die komplementären Eigenschaften von RGB- und Tiefendaten vollständig auszunutzen. Die Verfeinerungsblöcke lernen die Kombination der gefilterten Merkmale aus mehreren Stufen, um präzise, hochauflösende Vorhersagen zu ermöglichen. Durch vollständige Ausnutzung von Skip-Verbindungen kann unser Netzwerk diskriminative, mehrstufige Merkmale jeder Modality effizient end-to-end trainieren. Umfassende Experimente zeigen, dass die vorgeschlagene Architektur die aktuell beste Genauigkeit auf zwei anspruchsvollen RGB-D-Innenraum-Datensätzen, NYUDv2 und SUN RGB-D, erreicht.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| semantic-segmentation-on-sun-rgbd | DFormer-B | Mean IoU: 47.7% |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.