Jenseits von Part-Modellen: Personenerkennung mit verfeinertem Part-Pooling (und einer starken Faltungsnetzbasis)

Die Verwendung von teilbasierten Merkmalen zur Beschreibung von Fußgängerbildern bietet feingranulare Informationen und wurde in neuester Literatur als vorteilhaft für die Personenerkennung bestätigt. Eine Voraussetzung für die Teilidentifikation ist, dass jeder Teil gut positioniert sein sollte. Anstatt externe Hinweise wie z.B. Pose-Schätzungen zu verwenden, um Teile direkt zu lokalisieren, legt dieser Artikel den Fokus auf die Inhaltskonsistenz innerhalb jedes Teils.Speziell zielt unser Ansatz darauf ab, diskriminative teilinformierte Merkmale für die Personenerkennung zu lernen und macht zwei Beiträge. (i) Ein Netzwerk namens Part-based Convolutional Baseline (PCB). Bei Eingabe eines Bildes gibt es einen Faltungsdeskriptor aus, der aus mehreren teilbasierten Merkmalen besteht. Mit einer einheitlichen Partitionierungsstrategie erreicht das PCB vergleichbare Ergebnisse mit den aktuellen besten Methoden, was es als eine starke faltungsbezogene Grundlage für die Personenerkennung beweist.(ii) Eine verfeinerte Teilverteilungsmethode (Refined Part Pooling, RPP). Die einheitliche Partitionierung führt unvermeidlich zu Ausreißern in jedem Teil, die tatsächlich anderen Teilen ähnlicher sind. Das RPP ordnet diese Ausreißer den Teilen zu, denen sie am nächsten liegen, wodurch verfeinerte Teile mit erhöhter innerhalb-teilbasierter Konsistenz entstehen. Experimente bestätigen, dass RPP dem PCB ermöglicht, eine weitere Leistungssteigerung zu erzielen. Zum Beispiel erreichen wir auf dem Market-1501-Datensatz (77,4+4,2)% mAP und (92,3+1,5)% Rank-1-Akkuranz, was den aktuellen Stand der Technik um ein großes Maß übertrifft.