vor 16 Tagen

Lernen von räumlichem Bewusstsein zur Verbesserung der Menschenmengezählung

Zhi-Qi Cheng, Jun-Xiu Li, Qi Dai, Xiao Wu, Alexander Hauptmann

Abstract

Das Ziel der Menschenzählung besteht darin, die Anzahl von Personen in Bildern zu schätzen, indem die Annotationen der Zentrumspunkte der Köpfe von Fußgängern genutzt werden. Mit der Verbreitung tiefer Faltungsneuroner Netze (Convolutional Neural Networks, CNNs) wurden vielversprechende Fortschritte erzielt. Bestehende Methoden verwenden weit verbreitet die euklidische Distanz (d. h. die $L_2$-Verlustfunktion), um das Modell zu optimieren. Diese weist jedoch zwei wesentliche Nachteile auf: (1) Der Verlust hat Schwierigkeiten, räumliches Bewusstsein (d. h. die Position des Kopfes) zu lernen, da er die hochfrequenten Variationen in der Dichtekarte nicht gut beibehält, und (2) er ist hochgradig empfindlich gegenüber verschiedenen Störungen in der Menschenzählung, wie beispielsweise nullmittleren Rauschen, Veränderungen der Kopfgröße und Überlagerungen (Occlusions). Obwohl bereits die Maximum Excess over SubArrays (MESA)-Verlustfunktion vorgeschlagen wurde, um diese Probleme durch die Identifizierung eines rechteckigen Teilbereichs zu lösen, dessen vorhergesagte Dichtekarte die größte Abweichung von der Ground-Truth aufweist, kann diese nicht mittels Gradientenabstieg optimiert werden und lässt sich daher kaum in einen tiefen Lernrahmen integrieren. In diesem Artikel präsentieren wir eine neuartige Architektur namens SPatial Awareness Network (SPANet), die räumlichen Kontext für die Menschenzählung berücksichtigt. Zur Erreichung dieses Ziels wird die Maximum Excess over Pixels (MEP)-Verlustfunktion vorgestellt, die den pixelgenauen Teilbereich mit der größten Diskrepanz zur Ground-Truth identifiziert. Dazu entwickeln wir ein schwach überwachtes Lernverfahren, das mit einer mehrfach verzweigten Architektur einen solchen Bereich generiert. Der vorgeschlagene Ansatz kann nahtlos in bestehende tiefe Menschenzählmethoden integriert werden und ist end-to-end trainierbar. Umfassende Experimente an vier anspruchsvollen Benchmarks zeigen, dass unsere Methode die Leistung von Baseline-Verfahren erheblich verbessert. Besonders hervorzuheben ist, dass unser Ansatz auf allen Benchmark-Datensätzen die der derzeitigen State-of-the-Art-Methoden übertrifft.