Erzeugung hochwertiger Menschenansammlungsdichtekarten mittels kontextbasierter Pyramid-CNNs

Wir präsentieren eine neuartige Methode namens Kontextpyramiden-CNN (CP-CNN), die zur Erstellung hochwertiger Schätzungen von Menschenmenge und -dichte durch explizite Einbeziehung globaler und lokaler kontextueller Informationen von Menschenbildern entwickelt wurde. Das vorgeschlagene CP-CNN besteht aus vier Modulen: Globaler Kontextschätzer (GCE), Lokaler Kontextschätzer (LCE), Dichtekartenschätzer (DME) und einem Fusion-CNN (F-CNN). Der GCE ist ein auf VGG-16 basierendes CNN, das den globalen Kontext kodiert und zum Klassifizieren der Eingabebilder in verschiedene Dichteklassen trainiert wird. Der LCE ist ein weiteres CNN, das lokale kontextuelle Informationen kodiert und zum patchweisen Klassifizieren der Eingabebilder in verschiedene Dichteklassen trainiert wird. Der DME ist ein CNN mit mehrspaltiger Architektur, das darauf abzielt, hochdimensionale Merkmalskarten aus dem Eingabebild zu generieren, die dann mit den durch GCE und LCE geschätzten kontextuellen Informationen durch F-CNN fusioniert werden. Um hochauflösende und hochwertige Dichtekarten zu erzeugen, verwendet F-CNN eine Reihe von Faltungsschichten und fraktional-stridetigen Faltungsschichten (fractionally-strided convolutional layers) und wird zusammen mit dem DME in einer end-to-end-Architektur unter Verwendung einer Kombination aus adversarialem Verlust und pixelbasiertem euklidischen Verlust trainiert. Ausführliche Experimente an hochgradig anspruchsvollen Datensätzen zeigen, dass die vorgeschlagene Methode erhebliche Verbesserungen gegenüber den bislang besten Methoden erreicht.