Auswahl, Ergänzung und Fokussierung für die RGB-D-Saliency-Erkennung

Tiefendaten, die eine überwiegende diskriminative Leistungsfähigkeit hinsichtlich der Ortsbestimmung aufweisen, haben sich als vorteilhaft für eine präzise Aufmerksamkeitsvorhersage erwiesen. Allerdings werden RGB-D-Methoden zur Aufmerksamkeitsdetektion auch negativ beeinflusst durch zufällig verteilte fehlerhafte oder fehlende Bereiche auf der Tiefenkarte oder entlang der Objektränder. Dies eröffnet die Möglichkeit, durch gut gestaltete Modelle eine effektivere Inferenz zu erreichen. In diesem Paper stellen wir einen neuen Ansatz für eine präzise RGB-D-Aufmerksamkeitsdetektion vor, der sowohl lokale als auch globale Komplementaritäten aus beiden Modalitäten berücksichtigt. Dies wird erreicht durch die Entwicklung eines komplementären Interaktionsmodells, das ausreichend diskriminativ ist, um gleichzeitig nützliche Darstellungen aus RGB- und Tiefendaten auszuwählen und gleichzeitig die Objektränder zu verfeinern. Darüber hinaus schlagen wir eine verlustfunktion vor, die auf Kompensation ausgerichtet ist, um zusätzliche Informationen zu verarbeiten, die im komplementären Interaktionsmodell nicht berücksichtigt wurden, wodurch die Generalisierungsfähigkeit für anspruchsvolle Szenen verbessert wird. Experimente an sechs öffentlichen Datensätzen zeigen, dass unsere Methode 18 state-of-the-art-Methoden übertrifft.