Erkennen global, Feinjustieren lokal: Ein neuartiger Ansatz zur Aufmerksamkeitsdetektion

Die effektive Integration kontextueller Informationen ist entscheidend für die Detektion auffälliger Objekte. Um dies zu erreichen, konzentrieren sich die meisten bestehenden Methoden auf Architekturen mit „Skip“-Verbindungen hauptsächlich darauf, wie hierarchische Merkmale von Convolutional Neural Networks (CNNs) integriert werden können. Sie wenden einfach Verkettung oder elementweise Operationen an, um semantische Hinweise höherer Ebene mit detaillierten Informationen niedrigerer Ebene zu kombinieren. Dies kann jedoch die Qualität der Vorhersagen beeinträchtigen, da auch verwirrende und rauschhafte Informationen weitergeleitet werden können. Um dieses Problem anzugehen, schlagen wir ein globales rekurrentes Lokalisationsnetzwerk (Recurrent Localization Network, RLN) vor, das kontextuelle Informationen durch eine gewichtete Antwortkarte nutzt, um auffällige Objekte präziser zu lokalisieren. Insbesondere wird ein rekurrentes Modul eingesetzt, um die innere Struktur des CNNs über mehrere Zeitstufen schrittweise zu verfeinern. Darüber hinaus schlagen wir ein lokales Netzwerk zur Randverfeinerung (Boundary Refinement Network, BRN) vor, um die lokale kontextuelle Information für jede räumliche Position adaptiv zu lernen. Die gelernten Propagationskoeffizienten ermöglichen es, die Beziehungen zwischen jedem Pixel und seinen Nachbarn optimal zu erfassen. Experimente auf fünf anspruchsvollen Datensätzen zeigen, dass unser Ansatz hinsichtlich der gängigen Evaluationsmetriken gegenüber allen bestehenden Methoden überzeugt.