MRCNet: Menschenanzahlbestimmung und Dichtekartenabschätzung in Luft- und Bodenbildern

Trotz der vielfältigen Vorteile von Luftbildern für die Überwachung und Steuerung von Menschenmengen bei Großveranstaltungen fehlen im Bereich bisher noch umfangreiche Datensätze mit aerialen Bildern von Menschenmengen. Als Gegenmaßnahme stellen wir in dieser Arbeit ein neuartiges Menschenmengen-Datensatz vor, den DLR Aerial Crowd Dataset (DLR-ACD), der aus 33 großen Luftbildern besteht, die in 16 Flugmissionen über Großveranstaltungen erfasst wurden und 226.291 Personen enthalten, die annotiert sind. Soweit uns bekannt ist, stellt der DLR-ACD den ersten aerialen Menschenmengen-Datensatz dar und wird öffentlich zugänglich gemacht. Um das Problem der präzisen Zählung von Menschenmengen und der Schätzung von Dichtekarten in Luftbildern von Menschenmengen zu lösen, wird zudem ein neuartiges Encoder-Decoder-Convolutional Neural Network vorgestellt, das sogenannte Multi-Resolution Crowd Network (MRCNet). Der Encoder basiert auf dem VGG-16-Netzwerk, während der Decoder aus einer Reihe von bilinearen Upsampling- und Faltungsoperationen besteht. MRCNet schätzt die Menschenanzahl und hochauflösende Dichtekarten als zwei voneinander abhängige, aber unterschiedliche Aufgaben, wobei zwei Verlustfunktionen verwendet werden – eine auf einer frühen Ebene und eine auf der letzten Ebene des Decoders. Darüber hinaus nutzt MRCNet kontextuelle Informationen sowie detaillierte lokale Merkmale, indem es hoch- und niederwertige Merkmale durch eine Reihe von seitlichen Verbindungen kombiniert, die sich an der Feature Pyramid Network-(FPN)-Technik orientieren. Wir haben MRCNet sowohl auf dem vorgeschlagenen DLR-ACD-Datensatz als auch auf dem ShanghaiTech-Datensatz, einem Benchmark für Menschenmengen-Zählung basierend auf CCTV-Aufnahmen, evaluiert. Die Ergebnisse zeigen, dass MRCNet die derzeit besten Methoden zur Menschenmengen-Zählung sowohl für Luftbilder als auch für CCTV-basierte Bilder bei der Schätzung der Menschenanzahl und der Dichtekarten übertrifft.