HyperAIHyperAI
vor 17 Tagen

Pixel Difference Convolutional Network für RGB-D-Semantische Segmentierung

Jun Yang, Lizhi Bai, Yaoru Sun, Chunqi Tian, Maoyu Mao, Guorun Wang
Pixel Difference Convolutional Network für RGB-D-Semantische Segmentierung
Abstract

Die semantische Segmentierung in RGB-D-Bildern kann durch den Einsatz von Faltungsneuralen Netzen (CNNs) verbessert werden, da nun zusätzliche Tiefendaten zur Verfügung stehen. Obwohl Objekte allein aufgrund ihrer 2D-Aussehen oft schwer zu unterscheiden sind, können sie in bestimmten Fällen aufgrund lokaler Pixelunterschiede und geometrischer Muster in den Tiefendaten gut getrennt werden. Angesichts der festen Gitterstruktur der Faltungskerne sind CNNs jedoch aufgrund ihres begrenzten Vermögens, feinere, detaillierte Informationen zu erfassen, nicht in der Lage, präzise pixelgenaue semantische Segmentierungen zu erreichen. Um dieses Problem zu lösen, schlagen wir ein Pixel-Differenz-Faltungsnetzwerk (PDCNet) vor, das detaillierte inhärente Muster durch die Aggregation sowohl von Intensitäts- als auch von Gradienteninformationen im lokalen Bereich für Tiefendaten und im globalen Bereich für RGB-Daten erfasst. Genauer gesagt besteht das PDCNet aus einem Tiefen- und einem RGB-Zweig. Für den Tiefenzweig führen wir eine Pixel-Differenz-Faltung (PDC) ein, die lokale und detaillierte geometrische Informationen in den Tiefendaten durch die Aggregation von Intensitäts- und Gradienteninformationen berücksichtigt. Für den RGB-Zweig tragen wir ein leichtgewichtiges Kaskaden-Größerkern-Modul (CLK) bei, das die PDC erweitert – als CPDC bezeichnet – und so globale Kontextinformationen für RGB-Daten nutzt, um die Leistung weiter zu steigern. Dadurch werden sowohl lokale als auch globale Pixelunterschiede beider Modalitäten nahtlos in den Informationsübertragungsprozess des PDCNet integriert. Experimente an zwei anspruchsvollen Benchmark-Datensätzen, nämlich NYUDv2 und SUN RGB-D, zeigen, dass unser PDCNet eine state-of-the-art-Leistung für die semantische Segmentierung erzielt.

Pixel Difference Convolutional Network für RGB-D-Semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI