Die erneute Betrachtung der Bildpyramidenstruktur für die Erkennung von hochaufgelösten auffälligen Objekten

Die Erkennung von auffälligen Objekten (SOD, Salient Object Detection) steht aktuell im Fokus der Forschung, wurde jedoch bisher weniger für hochaufgelöste (HR, High-Resolution) Bilder untersucht. Leider sind HR-Bilder und ihre Pixel-Level-Annotierungen zweifellos aufwendiger und zeitaufreibender als Niedrigauflösungs- (LR, Low-Resolution) Bilder und Annotierungen. Daher schlagen wir ein SOD-Framework basierend auf Bildpyramiden vor, das Inverse Saliency Pyramid Reconstruction Network (InSPyReNet) genannt wird, welches HR-Vorhersagen ohne den Einsatz von HR-Datensätzen ermöglicht. Wir gestalten InSPyReNet so, dass es eine strenge Bildpyramidenstruktur der Salienzkarte erzeugt, was die Kombination mehrerer Ergebnisse durch pyramidenbasiertes Bildvermischen ermöglicht. Für HR-Vorhersagen entwickeln wir eine Pyramidenvermischungsmethode, die zwei verschiedene Bildpyramiden aus einem Paar von LR- und HR-Skalen des gleichen Bildes synthetisiert, um die Diskrepanz des effektiven Rezeptionsfelds (ERF, Effective Receptive Field) zu überwinden. Unsere umfangreichen Evaluierungen an öffentlichen LR- und HR-SOD-Benchmarks zeigen, dass InSPyReNet verschiedene SOD-Metriken und Randgenauigkeit gegenüber den Stand-of-the-Art-Methoden (SotA, State-of-the-Art) übertrifft.