Nicht-lokale tiefe Merkmale für die Erkennung auffälliger Objekte

Die Aufmerksamkeitsdetektion zielt darauf ab, die relevantesten Objekte in einem Bild hervorzuheben. Herkömmliche Methoden stoßen bei der Erkennung auffälliger Objekte vor einem unübersichtlichen Hintergrund auf Schwierigkeiten, während tiefe neuronale Netze unter übermäßiger Komplexität und langsamen Auswertungsgeschwinden leiden. In diesem Artikel stellen wir ein vereinfachtes Faltungsneuronales Netz vor, das lokale und globale Informationen durch eine mehrstufige 4×5-Gitterstruktur kombiniert. Anstelle der üblichen Durchsetzung räumlicher Kohärenz mittels CRF oder Superpixeln haben wir eine Verlustfunktion implementiert, die sich an der Mumford-Shah-Funktion orientiert und Fehler an den Objekträndern bestraft. Wir haben unser Modell auf dem MSRA-B-Datensatz trainiert und an sechs verschiedenen Benchmark-Datensätzen zur Aufmerksamkeitsdetektion getestet. Die Ergebnisse zeigen, dass unsere Methode dem Stand der Technik ebenbürtig ist, dabei jedoch die Berechnungszeit um den Faktor 18 bis 100 reduziert, was eine nahezu Echtzeit- und gleichzeitig hochleistungsfähige Aufmerksamkeitsdetektion ermöglicht.