Multispektrale Tiefen Neuronale Netze für die Erkennung von Fußgängern

Die multische Spektralpedestrienerkennung ist für rund-um-die-Uhr-Anwendungen wie Überwachung und autonome Fahrt von entscheidender Bedeutung. Wir analysieren das Faster R-CNN-Modell tiefgreifend im Kontext der multischen Spektralpedestrienerkennung und modellieren es anschließend als ein Fusionsproblem von Faltungsnetzen (ConvNet). Weiterhin stellen wir fest, dass ConvNet-basierte Pedestriererkennungsmodelle, die entweder mit farbigen oder thermischen Bildern getrennt trainiert werden, ergänzende Informationen zur Unterscheidung menschlicher Instanzen liefern. Daher besteht ein großes Potenzial, die Pedestrienerkennung durch gleichzeitige Verwendung von farbigen und thermischen Bildern in Tiefen neuronalen Netzen (DNNs) zu verbessern. Wir entwickeln sorgfältig vier ConvNet-Fusionsarchitekturen, die zweigeteilte ConvNets auf verschiedenen Stufen der DNN integrieren. Alle dieser Architekturen erzielen eine bessere Leistung im Vergleich zum Baseline-Detektor. Unsere experimentellen Ergebnisse am KAIST-Pedestrien-Benchmark zeigen, dass das Halbwegsfusionsmodell, das die Fusion auf den mittleren Schichten der Faltungsnetze durchführt, die Basismethode um 11 % übertrifft und einen 3,5 %-Punkte niedrigeren Ausfallquoten gegenüber den anderen vorgeschlagenen Architekturen erzielt.