Bilaterales Aufmerksamkeitsnetzwerk für die RGB-D-Aufmerksamkeitsobjekterkennung

Die meisten bestehenden Methoden zur salienten Objektdetektion (SOD) in RGB-D-Bildern konzentrieren sich beim Einsatz von Tiefenbildern auf den Vordergrundbereich. In traditionellen SOD-Methoden liefert jedoch auch der Hintergrund wichtige Informationen, die für eine herausragende Leistung entscheidend sind. Um die auffälligen Informationen sowohl im Vorder- als auch im Hintergrundbereich besser zu erschließen, schlagen wir im vorliegenden Artikel ein Bilaterales Aufmerksamkeitsnetzwerk (BiANet) für die RGB-D-SOD-Aufgabe vor. Konkret führen wir ein Bilaterales Aufmerksamkeitsmodul (BAM) mit einem komplementären Aufmerksamkeitsmechanismus ein: ein Vordergrund-erst (FF)-Aufmerksamkeitsverfahren und ein Hintergrund-erst (BF)-Aufmerksamkeitsverfahren. Das FF-Aufmerksamkeitsverfahren fokussiert sich auf den Vordergrundbereich mit einem schrittweisen Verfeinerungsansatz, während das BF-Verfahren potenziell nützliche auffällige Informationen im Hintergrundbereich rekonstruiert. Durch das vorgeschlagene BAM-Modul kann unser BiANet sowohl aussagekräftigere Hinweise aus dem Vorder- als auch aus dem Hintergrundbereich erfassen und zudem mehr Aufmerksamkeit auf die Verfeinerung unsicherer Details zwischen Vorder- und Hintergrund richten. Zudem erweitern wir das BAM durch die Nutzung mehrskaliger Techniken, um die SOD-Leistung weiter zu verbessern. Umfangreiche Experimente auf sechs Benchmark-Datensätzen zeigen, dass unser BiANet gegenüber anderen state-of-the-art-Methoden zur RGB-D-SOD in Bezug auf objektive Metriken sowie subjektive visuelle Bewertungen überlegen ist. Unser BiANet erreicht eine Geschwindigkeit von bis zu 80 fps bei RGB-D-Bildern der Größe $224\times224$ mit einer NVIDIA GeForce RTX 2080Ti-GPU. Ausführliche Ablationsstudien bestätigen zudem die Wirksamkeit unserer Ansätze.