A2dele: Adaptive and Attentive Depth Distiller for Efficient RGB-D Salient Object Detection

Bestehende state-of-the-art-Methoden zur salienten Objektdetektion in RGB-D-Daten basieren auf einer zweistromigen Architektur, bei der ein eigenständiges Subnetz zur Verarbeitung der Tiefendaten erforderlich ist. Dies führt zwangsläufig zu erhöhten Rechenkosten und Speicherbelastung, und die Verwendung von Tiefendaten während der Testphase erschwert die praktische Anwendung der RGB-D-Saliency-Detektion. Um diese beiden Herausforderungen zu bewältigen, schlagen wir einen Depth Distiller (A2dele) vor, der Netzwerkvorhersagen und Aufmerksamkeitsmechanismen als zwei Brücken nutzt, um Wissen aus dem Tiefenstrom in den RGB-Stream zu übertragen. Erstens erreichen wir durch adaptives Minimieren der Unterschiede zwischen den aus dem Tiefen- und RGB-Stream generierten Vorhersagen eine gezielte Übertragung von pixelweisen Tiefeninformationen in den RGB-Stream. Zweitens fördern wir die Übertragung von Lokalisationswissen auf die RGB-Features, indem wir Konsistenz zwischen der dilatierten Vorhersage des Tiefenstroms und der Aufmerksamkeitskarte des RGB-Streams anstreben. Dadurch erreichen wir eine leichtgewichtige Architektur, die während der Testphase keine Tiefendaten mehr benötigt, indem wir A2dele integrieren. Unsere umfassende experimentelle Bewertung auf fünf Benchmarks zeigt, dass unser RGB-Stream eine state-of-the-art-Leistung erzielt, wobei das Modellvolumen um 76 % reduziert und die Ausführungsgeschwindigkeit im Vergleich zur besten bestehenden Methode um das 12-fache beschleunigt wird. Darüber hinaus lässt sich A2dele problemlos auf bestehende RGB-D-Netzwerke anwenden, um deren Effizienz signifikant zu steigern, ohne die Leistung zu beeinträchtigen (Verbesserung der FPS um fast das Zweifache bei DMRA und um das Dreifache bei CPFP).