HyperAIHyperAI
vor 4 Monaten

Lernen von mehrschichtigen Kanalmerkmalen für die Fußgängererkennung

Jiale Cao; Yanwei Pang; Xuelong Li
Lernen von mehrschichtigen Kanalmerkmalen für die Fußgängererkennung
Abstract

Die Pedestrienerkennung auf Basis der Kombination von Faltungsneuronalen Netzen (CNN) und traditionellen manuell gestalteten Merkmalen (HOG+LUV) hat große Erfolge erzielt. Im Allgemeinen werden HOG+LUV verwendet, um die Kandidatenvorschläge zu generieren, die dann durch ein CNN klassifiziert werden. Trotz dieser Erfolge gibt es noch Verbesserungspotenzial. Zum Beispiel klassifiziert das CNN diese Vorschläge anhand der vollständig verbundenen Schichtmerkmale, während die Vorschlagsbewertungen und die Merkmale in den inneren Schichten des CNN ignoriert werden. In dieser Arbeit schlagen wir einen einheitlichen Ansatz vor, der als Multilayer-Channel-Features (MCF) bezeichnet wird, um diesen Nachteil zu überwinden. Zunächst integriert MCF HOG+LUV mit jeder Schicht des CNN in mehrschichtige Bildkanäle. Auf Basis dieser mehrschichtigen Bildkanäle wird anschließend ein mehrstufiger kaskadierter AdaBoost gelernt. Die schwachen Klassifikatoren in jeder Stufe der mehrstufigen Kaskade werden aus den Bildkanälen der entsprechenden Schicht gelernt. Durch reichhaltigere Merkmale erreicht MCF den aktuellen Stand der Technik im Caltech-Pedestrier-Datensatz (10,40 % Fehlerrate). Mit neuen und genauen Annotationen erreicht MCF eine Fehlerrate von 7,98 %. Da viele nicht-pedestrier Erkennungsfenster durch die ersten Stufen schnell abgelehnt werden können, wird die Erkennungsgeschwindigkeit um 1,43-fach beschleunigt. Durch das Eliminieren hoch überlappender Erkennungsfenster mit niedrigeren Bewertungen nach der ersten Stufe ist sie 4,07-fach schneller bei vernachlässigbaren Leistungsverlusten.