Kontrastprior und fluide Pyramidenintegration für die RGBD-aufmerksamkeitsstarke Objekterkennung

Die große Verfügbarkeit von Tiefensensoren bietet wertvolle ergänzende Informationen für die Erkennung auffälliger Objekte (SOD) in RGBD-Bildern. Aufgrund der inhärenten Unterschiede zwischen RGB- und Tiefeninformation sind die direkte Extraktion von Merkmalen aus dem Tiefenkanal mittels ImageNet-vortrainierter Backbone-Modelle und deren Fusion mit RGB-Merkmalen suboptimal. In diesem Artikel integrieren wir den Kontrastprior, der in herkömmlichen, nicht-tiefen-Lern-basierten SOD-Ansätzen eine dominierende Rolle spielte, in eine CNN-basierte Architektur, um die Tiefeninformation zu verbessern. Die verfeinerten Tiefeninformationen werden anschließend mit RGB-Merkmalen mittels eines neuartigen flüssigen Pyramidenintegrationsschemas für die SOD integriert, das eine bessere Nutzung von mehrskaligen, multimodalen Merkmalen ermöglicht. Umfassende Experimente an fünf anspruchsvollen Benchmark-Datensätzen belegen die Überlegenheit der Architektur CPFP gegenüber neun state-of-the-art-Alternativmethoden.