HyperAIHyperAI
vor 3 Monaten

Diffusionsbasierte RGB-D-Semantische Segmentierung mit deformierbarem Aufmerksamkeits-Transformer

Minh Bui, Kostas Alexis
Diffusionsbasierte RGB-D-Semantische Segmentierung mit deformierbarem Aufmerksamkeits-Transformer
Abstract

Die visionbasierte Wahrnehmung und Schlussfolgerung ist für die Szenenverstehens in autonomen Systemen von entscheidender Bedeutung. RGB- und Tiefenbilder werden häufig verwendet, um sowohl semantische als auch geometrische Merkmale der Umgebung zu erfassen. Die Entwicklung zuverlässiger Methoden zur Interpretation dieser Daten ist für Anwendungen in der realen Welt entscheidend, in denen störende Messungen oft unvermeidbar sind. In dieser Arbeit stellen wir einen auf Diffusion basierenden Ansatz vor, um das Problem der RGB-D-Semantiksegmentierung anzugehen. Zudem zeigen wir, dass die Verwendung eines Deformable Attention Transformers als Encoder zur Merkmalsextraktion aus Tiefenbildern effektiv die Eigenschaften von ungültigen Bereichen in den Tiefenmessungen erfasst. Unser generativer Ansatz zeigt eine größere Fähigkeit, die zugrundeliegende Verteilung von RGB-D-Bildern zu modellieren, und erreicht dabei eine robuste Leistung in anspruchsvollen Szenarien mit deutlich geringerem Trainingsaufwand im Vergleich zu diskriminativen Methoden. Experimentelle Ergebnisse belegen, dass unsere Methode sowohl auf den NYUv2- als auch auf den SUN-RGBD-Datensätzen Spitzenleistung erzielt – insbesondere in den herausforderndsten Bildteilen dieser Datensätze. Die Projektseite ist unter https://diffusionmms.github.io/ verfügbar.