HydraPlus-Net: Aufmerksame Tiefenfeatures für die Fußgängeranalyse

Die Analyse von Fußgängern spielt eine entscheidende Rolle im intelligenten Videoüberwachungssystem und ist ein wesentlicher Bestandteil sicherheitsorientierter Computer-Vision-Systeme. Obwohl Faltungsneuronale Netze (CNNs) bemerkenswert sind in der Lernfähigkeit, diskriminierende Merkmale aus Bildern zu extrahieren, bleibt das Lernen umfassender Merkmale von Fußgängern für feingranulare Aufgaben ein offenes Problem. In dieser Studie schlagen wir ein neues aufmerksamkeitsbasiertes tiefes Neuronales Netzwerk vor, das als HydraPlus-Netz (HP-Netz) bezeichnet wird und die mehrstufigen Aufmerksamkeitskarten in verschiedene Merkmalschichten multidirektional einspeist. Die aufmerksamkeitsbasierten tiefen Merkmale, die aus dem vorgeschlagenen HP-Netz gelernt werden, bieten einzigartige Vorteile: (1) Das Modell ist in der Lage, mehrere Aufmerksamkeiten von niedrigem bis semantischem Niveau zu erfassen, und (2) es untersucht die mehrskalige Selektivität der aufmerksamkeitsbasierten Merkmale, um die endgültigen Merkmalsrepräsentationen für ein Fußgängerbild zu bereichern. Wir zeigen die Effektivität und Allgemeingültigkeit des vorgeschlagenen HP-Netzes für die Fußgängeranalyse anhand zweier Aufgaben: der Erkennung von Fußgängereigenschaften und der Person-Wiedererkennung. Detaillierte experimentelle Ergebnisse wurden präsentiert, um zu beweisen, dass das HP-Netz den aktuellen Stand der Technik auf verschiedenen Datensätzen übertrifft.