Parameterfreies räumliches Aufmerksamkeitsnetzwerk für die Wiedererkennung von Personen

Die globale Durchschnittspooling (GAP) ermöglicht es, diskriminierende Informationen für die Erkennung zu lokalisieren [40]. Während GAP dem konvolutionellen Neuronalen Netzwerk hilft, sich auf die am stärksten diskriminierenden Merkmale eines Objekts zu konzentrieren, kann es Schwierigkeiten bereiten, wenn diese Informationen fehlen, z.B. aufgrund von Änderungen der Kameraperspektive. Um dieses Problem zu umgehen, argumentieren wir, dass es vorteilhaft ist, sich auf die globale Konfiguration des Objekts zu konzentrieren, indem man räumliche Beziehungen zwischen hochstufigen Merkmalen modelliert. Wir schlagen eine neue Architektur für die Person-Wiedererkennung (Person Re-Identification) vor, die auf einer neuartigen raumbezogenen Aufmerksamkeitsschicht ohne Parameter basiert und räumliche Beziehungen zwischen den Aktivierungen der Merkmalskarten in das Modell zurückführt. Unsere raumbezogene Aufmerksamkeitsschicht verbessert die Leistung des Modells konsistent. Die Ergebnisse auf vier Benchmarks zeigen eine Überlegenheit unseres Modells gegenüber dem Stand der Technik mit einer Rang-1-Genauigkeit von 94,7 % auf Market-1501, 89,0 % auf DukeMTMC-ReID, 74,9 % auf CUHK03-labeled und 69,7 % auf CUHK03-detected.