HyperAIHyperAI
vor 11 Tagen

Encoder-Decoder-basierte konvolutionelle neuronale Netzwerke mit multi-scale-aware-Modulen für die Menschenanzahlabschätzung

Pongpisit Thanasutives, Ken-ichi Fukui, Masayuki Numao, Boonserm Kijsirikul
Encoder-Decoder-basierte konvolutionelle neuronale Netzwerke mit multi-scale-aware-Modulen für die Menschenanzahlabschätzung
Abstract

In diesem Artikel stellen wir zwei modifizierte neuronale Netzwerke vor, die auf dem Dual-Path-Mehrskalen-Fusionsnetzwerk (SFANet) und SegNet basieren, um eine genaue und effiziente Menschenansammlungszählung zu ermöglichen. Angeregt durch SFANet wird das erste Modell, M-SFANet genannt, mit einem atrous spatial pyramid pooling (ASPP)-Modul und einem kontextbewussten Modul (CAN) ausgestattet. Der Encoder von M-SFANet wird durch ASPP mit parallelen atrous-convolutionalen Schichten mit unterschiedlichen Abtastraten erweitert, wodurch die Extraktion mehrskaliger Merkmale des Zielobjekts und die Integration größerer Kontextinformationen ermöglicht werden. Um die Skalenvariation innerhalb eines Eingabebildes weiter zu bewältigen, nutzen wir das CAN-Modul, das die Skalen der Kontextinformationen adaptiv kodiert. Die Kombination dieser Komponenten ergibt ein effektives Modell zur Zählung sowohl in dichten als auch in dünnen Menschenansammlungsszenarien. Basierend auf der Decoder-Struktur von SFANet verfügt der M-SFANet-Decoder über zwei Pfade zur Erzeugung einer Dichtekarte und einer Aufmerksamkeitskarte. Das zweite Modell heißt M-SegNet, das entsteht, indem die bilineare Aufsampling-Operation in SFANet durch Max-Unpooling ersetzt wird, wie es in SegNet verwendet wird. Diese Änderung führt zu einem schnelleren Modell mit konkurrenzfähiger Zählleistung. Da M-SegNet für Anwendungen in der Hochgeschwindigkeitsüberwachung konzipiert ist, enthält es kein zusätzliches mehrskalenbewusstes Modul, um die Komplexität nicht zu erhöhen. Beide Modelle basieren auf einer Encoder-Decoder-Architektur und sind end-to-end trainierbar. Wir führen umfangreiche Experimente an fünf Menschenansammlungszählungsdatasets und einem Fahrzeugzählungsdataset durch, um zu zeigen, dass diese Modifikationen Algorithmen erzeugen, die die derzeitigen State-of-the-Art-Methoden zur Menschenansammlungszählung verbessern. Der Quellcode ist unter https://github.com/Pongpisit-Thanasutives/Variations-of-SFANet-for-Crowd-Counting verfügbar.

Encoder-Decoder-basierte konvolutionelle neuronale Netzwerke mit multi-scale-aware-Modulen für die Menschenanzahlabschätzung | Neueste Forschungsarbeiten | HyperAI