HyperAIHyperAI
vor 11 Tagen

Crowd Counting mittels segmentationsgeleiteter Aufmerksamkeitsnetzwerke und Curriculum-Loss

Qian Wang, Toby P. Breckon
Crowd Counting mittels segmentationsgeleiteter Aufmerksamkeitsnetzwerke und Curriculum-Loss
Abstract

Die automatische Analyse von Menschenmengenverhalten ist eine zentrale Aufgabe für intelligente Verkehrssysteme, um eine effektive Flusssteuerung und dynamische Routenplanung für variierende Verkehrsteilnehmer zu ermöglichen. Die Zählung von Menschenmengen stellt eine Schlüsselkomponente der automatischen Analyse von Menschenmengenverhalten dar. In den letzten Jahren wurden durch den Einsatz tiefer konvolutioneller neuronalen Netzwerke (CNN) ermutigende Fortschritte bei der Menschenmengenzählung erzielt. Forscher haben erhebliche Anstrengungen unternommen, um verschiedene CNN-Architekturen zu entwickeln, wobei die meisten auf dem vortrainierten VGG16-Modell basieren. Aufgrund der begrenzten Ausdruckskraft des VGG16-Backbone-Netzwerks wird typischerweise ein zusätzliches, komplexes Netzwerk speziell für eine gute Zählleistung nachgeschaltet. Obwohl Inception-Modelle im Bereich der Bildklassifikation die VGG-Modelle bereits überflügelt haben, verfügen die bisherigen auf Inception-Modulen basierenden Menschenmengenzählnetzwerke immer noch über nur wenige Schichten mit grundlegenden Inception-Modultypen. Um diese Lücke zu schließen, benchmarken wir in diesem Artikel erstmals das Baseline-Inception-v3-Modell auf gängigen Menschenmengenzähl-Datensätzen und erreichen überraschend gute Ergebnisse, die mit oder sogar besser sind als die der meisten bestehenden Menschenmengenzählmodelle. Anschließend erweitern wir die Grenzen dieser bahnbrechenden Arbeit, indem wir ein Segmentierungsgeleitetes Aufmerksamkeitsnetzwerk (SGANet) mit Inception-v3 als Backbone und einer neuartigen Curriculum-Loss-Funktion für die Menschenmengenzählung vorschlagen. Umfassende Experimente zeigen den Leistungsvergleich unseres SGANet mit vorherigen Ansätzen. Das vorgeschlagene Modell erreicht dabei state-of-the-art-Leistung mit einem mittleren absoluten Fehler (MAE) von 57,6, 6,3 und 87,6 auf den Datensätzen ShanghaiTechA, ShanghaiTechB und UCF_QNRF, jeweils.

Crowd Counting mittels segmentationsgeleiteter Aufmerksamkeitsnetzwerke und Curriculum-Loss | Neueste Forschungsarbeiten | HyperAI