HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-Modale Aufmerksamkeitsbasierte Fusionsmodell für die semantische Segmentierung von RGB-Tiefen-Bildern

Fahimeh Fooladgar Shohreh Kasaei

Zusammenfassung

Die 3D-Szenenverstehensaufgabe gilt in der Computer Vision und Robotik als entscheidende Anforderung. Eine der hochleveligen Aufgaben im Bereich des 3D-Szenenverstehens ist die semantische Segmentierung von RGB-Tiefen-Bildern. Durch die Verfügbarkeit von RGB-D-Kameras besteht der Wunsch, die Genauigkeit des Szenenverstehens durch die Nutzung von Tiefenmerkmalen neben den Erscheinungsmerkmalen zu verbessern. Da Tiefenbilder unabhängig von der Beleuchtung sind, können sie die Qualität der semantischen Etikettierung ergänzend zu RGB-Bildern erhöhen. Die Berücksichtigung sowohl gemeinsamer als auch spezifischer Merkmale beider Modalitäten führt zu einer Verbesserung der Leistung der semantischen Segmentierung. Ein zentrales Problem bei der semantischen Segmentierung von RGB-Tiefen-Bildern ist die effiziente Fusion oder Kombination beider Modalitäten, um die Vorteile jeder Modality optimal zu nutzen, gleichzeitig aber rechenzeit- und ressourcensparend zu bleiben. In jüngster Zeit haben Methoden, die auf tiefen neuronalen Netzen basieren, durch frühe, späte und mittlere Fusionsstrategien state-of-the-art-Ergebnisse erzielt. In diesem Artikel wird ein effizienter Encoder-Decoder-Modell mit einem auf Aufmerksamkeit basierenden Fusionsblock vorgeschlagen, um die gegenseitigen Beeinflussungen zwischen den Merkmalskarten beider Modalitäten zu integrieren. Dieser Block extrahiert explizit die Wechselwirkungen zwischen den verketteten Merkmalskarten der beiden Modalitäten, um leistungsfähigere Merkmalskarten aus RGB-Tiefen-Bildern zu gewinnen. Umfangreiche Experimente an drei bedeutenden, anspruchsvollen Datensätzen – NYU-V2, SUN RGB-D und Stanford 2D-3D-Semantic – zeigen, dass das vorgeschlagene Netzwerk sowohl hinsichtlich des Rechenaufwands als auch der Modellgröße die bestehenden state-of-the-art-Modelle übertrifft. Die experimentellen Ergebnisse belegen zudem die Wirksamkeit des vorgeschlagenen leichten, auf Aufmerksamkeit basierenden Fusionsmodells hinsichtlich der Genauigkeit.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp