Asymmetrische Zwei-Stream-Architektur für präzise RGB-D-Aufmerksamkeitsdetektion

Die meisten bestehenden Methoden zur RGB-D-Salienzdetektion nutzen symmetrische Zwei-Stream-Architekturen, um diskriminative RGB- und Tiefenrepräsentationen zu lernen. In Wirklichkeit wird jedoch ein weiteres, oft übersehener Unsicherheitsfaktor ignoriert: ob RGB- und Tiefendaten tatsächlich in dasselbe Netzwerk integriert werden müssen. In diesem Artikel schlagen wir eine asymmetrische Zwei-Stream-Architektur vor, die die inhärenten Unterschiede zwischen RGB- und Tiefendaten bei der Salienzdetektion berücksichtigt. Zunächst entwerfen wir ein Flow-Ladder-Modul (FLM) für den RGB-Stream, um sowohl globale als auch lokale Informationen umfassend zu extrahieren, während die Salienzdetails bewahrt werden. Dies wird durch die Konstruktion von vier Detail-Transfer-Zweigen erreicht, wobei jeder Zweig die Detailinformationen bewahrt und über eine evolutionäre Weise globale Ortsinformationen aus den Darstellungen anderer vertikal paralleler Zweige erhält. Zweitens stellen wir ein neuartiges Tiefen-Attention-Modul (DAM) vor, das sicherstellt, dass Tiefenmerkmale mit hoher diskriminativer Kraft in Bezug auf Position und räumliche Struktur effektiv genutzt werden, wenn sie mit RGB-Merkmale in anspruchsvollen Szenen kombiniert werden. Darüber hinaus können die Tiefenmerkmale über das vorgeschlagene DAM diskriminativ auf die RGB-Merkmale einwirken, um die genaue Lokalisierung salienter Objekte zu ermöglichen. Umfangreiche Experimente zeigen, dass unsere Methode gegenüber 13 state-of-the-art-Methoden für RGB-D-Detektion auf sieben Datensätzen überlegen abschneidet. Der Quellcode wird öffentlich zugänglich sein.