HyperAIHyperAI
vor 17 Tagen

Multi-Modale Aufmerksamkeitsbasierte Fusionsmodell für die semantische Segmentierung von RGB-Tiefen-Bildern

Fahimeh Fooladgar, Shohreh Kasaei
Multi-Modale Aufmerksamkeitsbasierte Fusionsmodell für die semantische Segmentierung von RGB-Tiefen-Bildern
Abstract

Die 3D-Szenenverstehensaufgabe gilt in der Computer Vision und Robotik als entscheidende Anforderung. Eine der hochleveligen Aufgaben im Bereich des 3D-Szenenverstehens ist die semantische Segmentierung von RGB-Tiefen-Bildern. Durch die Verfügbarkeit von RGB-D-Kameras besteht der Wunsch, die Genauigkeit des Szenenverstehens durch die Nutzung von Tiefenmerkmalen neben den Erscheinungsmerkmalen zu verbessern. Da Tiefenbilder unabhängig von der Beleuchtung sind, können sie die Qualität der semantischen Etikettierung ergänzend zu RGB-Bildern erhöhen. Die Berücksichtigung sowohl gemeinsamer als auch spezifischer Merkmale beider Modalitäten führt zu einer Verbesserung der Leistung der semantischen Segmentierung. Ein zentrales Problem bei der semantischen Segmentierung von RGB-Tiefen-Bildern ist die effiziente Fusion oder Kombination beider Modalitäten, um die Vorteile jeder Modality optimal zu nutzen, gleichzeitig aber rechenzeit- und ressourcensparend zu bleiben. In jüngster Zeit haben Methoden, die auf tiefen neuronalen Netzen basieren, durch frühe, späte und mittlere Fusionsstrategien state-of-the-art-Ergebnisse erzielt. In diesem Artikel wird ein effizienter Encoder-Decoder-Modell mit einem auf Aufmerksamkeit basierenden Fusionsblock vorgeschlagen, um die gegenseitigen Beeinflussungen zwischen den Merkmalskarten beider Modalitäten zu integrieren. Dieser Block extrahiert explizit die Wechselwirkungen zwischen den verketteten Merkmalskarten der beiden Modalitäten, um leistungsfähigere Merkmalskarten aus RGB-Tiefen-Bildern zu gewinnen. Umfangreiche Experimente an drei bedeutenden, anspruchsvollen Datensätzen – NYU-V2, SUN RGB-D und Stanford 2D-3D-Semantic – zeigen, dass das vorgeschlagene Netzwerk sowohl hinsichtlich des Rechenaufwands als auch der Modellgröße die bestehenden state-of-the-art-Modelle übertrifft. Die experimentellen Ergebnisse belegen zudem die Wirksamkeit des vorgeschlagenen leichten, auf Aufmerksamkeit basierenden Fusionsmodells hinsichtlich der Genauigkeit.

Multi-Modale Aufmerksamkeitsbasierte Fusionsmodell für die semantische Segmentierung von RGB-Tiefen-Bildern | Neueste Forschungsarbeiten | HyperAI