Lokalitäts-sensible Entfaltung-Netzwerke mit gatemäßigem Fusionsansatz für die RGB-D-Indoor-Semantische Segmentierung

Diese Arbeit konzentriert sich auf die semantische Segmentierung im Innenraum unter Verwendung von RGB-D-Daten. Obwohl die häufig verwendeten Deconvolution-Netze (DeconvNet) hervorragende Ergebnisse auf dieser Aufgabe erzielt haben, stellen wir fest, dass in zwei Aspekten noch Verbesserungspotential besteht. Erstens betrifft dies die Segmentierung von Objekträndern: DeconvNet aggregiert große Kontextinformationen, um die Etikettierung jedes Pixels vorherzusagen, was die Genauigkeit der Objektrandsegmentierung inhärent einschränkt. Zweitens betrifft es die Fusion von RGB- und Tiefendaten: Moderne State-of-the-Art-Methoden kombinieren RGB- und Tiefennetze in der Regel durch gleichgewichtete Score-Fusion, unabhängig davon, dass die Beiträge beider Modalitäten zur Detaillierung unterschiedlicher Kategorien in verschiedenen Szenen variieren können. Um diese beiden Probleme anzugehen, schlagen wir zunächst ein lokalitäts-sensitives DeconvNet (LS-DeconvNet) vor, um die Segmentierung der Objektränder innerhalb jeder Modality zu verfeinern. LS-DeconvNet integriert lokale visuelle und geometrische Hinweise aus den Rohdaten des RGB-D-Sensors direkt in jedes DeconvNet. Dadurch kann es lernen, die groben, kontextreichen Faltungskarten effizient hochzuskalieren, während gleichzeitig scharfe Objektränder rekonstruiert werden. Für die RGB-D-Fusion führen wir eine gatete Fusionsschicht ein, um die beiden LS-DeconvNets effektiv zu kombinieren. Diese Schicht kann lernen, die Beiträge von RGB und Tiefendaten für jedes Pixel individuell anzupassen, um eine hochpräzise Objekterkennung zu ermöglichen. Experimente auf dem großskaligen SUN RGB-D-Datensatz und dem etablierten NYU-Depth v2-Datensatz zeigen, dass unsere Methode neue State-of-the-Art-Ergebnisse für die semantische Segmentierung im Innenraum mit RGB-D-Daten erzielt.