Kontextueller Encoder-Decoder-Netzwerk für die Vorhersage visueller Aufmerksamkeit

Die Vorhersage von prominenten Bereichen in natürlichen Bildern erfordert die Detektion von Objekten, die in einer Szene vorhanden sind. Um für diese anspruchsvolle Aufgabe robuste Darstellungen zu entwickeln, müssen hochwertige visuelle Merkmale auf mehreren räumlichen Skalen extrahiert und mit kontextuellen Informationen ergänzt werden. Bestehende Modelle, die sich darauf konzentrieren, menschliche Fixationskarten zu erklären, integrieren jedoch kein solches Mechanismus explizit. Hier schlagen wir einen Ansatz vor, der auf einem konvolutionellen neuronalen Netzwerk basiert, das vorab auf einer umfangreichen Bildklassifizierungsaufgabe trainiert wurde. Die Architektur bildet eine Encoder-Decoder-Struktur und enthält ein Modul mit mehreren konvolutionellen Schichten unterschiedlicher Dilatationsraten, um gleichzeitig mehrskalige Merkmale zu erfassen. Darüber hinaus kombinieren wir die resultierenden Darstellungen mit globaler Szeneninformation zur genauen Vorhersage der visuellen Salienz. Unser Modell erzielt wettbewerbsfähige und konsistente Ergebnisse bei mehreren Evaluationsmetriken auf zwei öffentlichen Salienz-Benchmarks und wir demonstrieren die Effektivität des vorgeschlagenen Ansatzes an fünf Datensätzen und ausgewählten Beispielen. Im Vergleich zu den neuesten Ansätzen basiert das Netzwerk auf einem leichten Bildklassifizierungsbackbone und stellt daher eine geeignete Wahl für Anwendungen mit begrenzten Rechenressourcen dar, wie zum Beispiel (virtuelle) Robotersysteme, um menschliche Fixationen in komplexen natürlichen Szenen abzuschätzen.