Verlustfunktion für Zählen, Dichtebildschätzung und Lokalisierung in dichten Menschenmengen

Mit mehreren jährlichen Veranstaltungen, bei denen Millionen von Menschen zusammenkommen – sei es Pilgerfahrten, Proteste, Konzerte, Marathonläufe oder Festivals und Beerdigungen – entwickelt sich die visuelle Menschenmengeanalyse zu einem neuen Forschungsfeld in der Computer Vision. Insbesondere stellt das Zählen in stark dichten Menschenmengen ein herausforderndes Problem dar, das weitreichende Anwendungen im Bereich der Sicherheit und Management von Menschenmengen sowie zur Einschätzung der politischen Bedeutung von Protesten und Demonstrationen hat. In dieser Arbeit schlagen wir einen neuen Ansatz vor, der gleichzeitig die Probleme des Zählens, der Dichteschätzung und der Lokalisierung von Personen in einem gegebenen Bild einer dichten Menge löst. Unsere Formulierung basiert auf der wichtigen Erkenntnis, dass diese drei Probleme untereinander eng verwandt sind, was die Zerlegbarkeit der Verlustfunktion für die Optimierung eines tiefen CNNs ermöglicht. Da die Lokalisierung hochwertige Bilder und Annotationen erfordert, stellen wir den UCF-QNRF-Datensatz vor, der die Nachteile früherer Datensätze überwindet und 1,25 Millionen manuell mit Punktannotationen markierte Menschen enthält. Schließlich präsentieren wir Bewertungsmaße und Vergleiche mit aktuellen tiefen CNN-Netzwerken, einschließlich solcher, die speziell für das Zählen von Menschenmengen entwickelt wurden. Unser Ansatz erzielt signifikant bessere Ergebnisse als der Stand der Technik auf dem neuen Datensatz, welcher das anspruchsvollste Dataset mit der größten Anzahl an Menge-Annotationen in den vielfältigsten Szenarien ist.