HyperAIHyperAI
vor 2 Monaten

DFormer: Neuaufnahme des RGBD-Darstellungslernens für die semantische Segmentierung

Bowen Yin; Xuying Zhang; Zhongyu Li; Li Liu; Ming-Ming Cheng; Qibin Hou
DFormer: Neuaufnahme des RGBD-Darstellungslernens für die semantische Segmentierung
Abstract

Wir präsentieren DFormer, ein neues Vortrainingsframework für RGB-D-Aufgaben, das übertragbare Repräsentationen für die Segmentierung von RGB-D-Bildern lernt. DFormer verfügt über zwei wesentliche Innovationen: 1) Im Gegensatz zu früheren Arbeiten, die RGB-D-Information mit einem auf RGB vortrainierten Backbone kodieren, verwenden wir Bild-Tiefen-Paare aus ImageNet-1K zur Vortrainung des Backbones. Dadurch wird DFormer mit der Fähigkeit ausgestattet, RGB-D-Repräsentationen zu kodieren; 2) DFormer besteht aus einer Reihe von RGB-D-Blöcken, die durch eine neuartige Bauelementdesign speziell für die Kodierung von sowohl RGB- als auch Tiefeninformationen angepasst sind. DFormer vermeidet die fehlerhafte Kodierung der 3D-Geometriebeziehungen in Tiefenkarten, die bei den existierenden Methoden häufig auftritt, aber bisher nicht gelöst wurde. Wir feinjustieren das vortrainierte DFormer an zwei gängigen RGB-D-Aufgaben, nämlich der semantischen Segmentierung von RGB-D-Bildern und der Detektion hervorstechender Objekte in RGB-D-Bildern, unter Verwendung eines leichten Decoder-Kopfes. Experimentelle Ergebnisse zeigen, dass unser DFormer bei diesen beiden Aufgaben eine neue Spitzenleistung erzielt und dabei weniger als die Hälfte der Rechenkosten des aktuellen besten Verfahrens auf zwei RGB-D-Semantiksegmentierungsdatensätzen und fünf RGB-D-Hervorstechendobjektdetektionsdatensätzen benötigt. Unser Code ist unter folgender URL verfügbar: https://github.com/VCIP-RGBD/DFormer.

DFormer: Neuaufnahme des RGBD-Darstellungslernens für die semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI