HyperAIHyperAI
vor 2 Monaten

RFBNet: Tiefgangige multimodale Netze mit Residual-Fusion-Blöcken für RGB-D semantische Segmentierung

Liuyuan Deng; Ming Yang; Tianyi Li; Yuesheng He; Chunxiang Wang
RFBNet: Tiefgangige multimodale Netze mit Residual-Fusion-Blöcken für RGB-D semantische Segmentierung
Abstract

RGB-D-Semantische Segmentierungsmethoden verwenden üblicherweise zwei unabhängige Encoder, um Merkmale aus den RGB- und Tiefendaten zu extrahieren. Es fehlt jedoch an einem effektiven Fusionsmechanismus, der die Encoder verbindet, um die komplementären Informationen aus mehreren Modalitäten vollständig zu nutzen. In dieser Arbeit wird eine neuartige bottom-up-interaktive Fusionsstruktur vorgeschlagen, um die Wechselwirkungen zwischen den Encodern zu modellieren. Diese Struktur führt einen Interaktionstrom ein, der die Encoder miteinander verbindet. Der Interaktionstrom aggregiert nicht nur schrittweise modalitätsspezifische Merkmale von den Encodern, sondern berechnet auch komplementäre Merkmale für sie. Um diese Struktur zu implementieren, schlägt die Arbeit einen Residual-Fusion-Block (RFB) vor, um die Wechselwirkungen der Encodern zu formalisieren. Der RFB besteht aus zwei Residual-Einheiten und einer Fusionseinheit mit Schaltmechanismus (Gate Mechanism). Er lernt komplementäre Merkmale für die modalitätsspezifischen Encoder und extrahiert sowohl modalitätsspezifische als auch multimodale Merkmale. Auf Basis des RFB stellt die Arbeit das tiefenmultimodale Netzwerk für RGB-D-Semantische Segmentierung namens RFBNet vor. Die Experimente auf zwei Datensätzen zeigen die Effektivität des Modellierens der Wechselwirkungen und dass RFBNet den Stand der Technik in Bezug auf Leistung erreicht hat.