CNN-basiertes kaskadiertes Multi-Task-Lernen von High-Level-Prior und Dichteabschätzung für Menschenzählung

Die Schätzung der Personenanzahl in dicht besetzten Szenen ist aufgrund nicht uniformer Skalenvariationen eine äußerst herausfordernde Aufgabe. In dieser Arbeit schlagen wir ein neues end-to-end gekoppeltes Netzwerk von CNNs (Convolutional Neural Networks) vor, das die Klassifizierung der Personenanzahl und die Schätzung von Dichtebildern gemeinsam lernt. Die Einteilung der Personenanzahl in verschiedene Gruppen entspricht einer groben Schätzung der Gesamtanzahl in dem Bild, wodurch ein hochstufiges Vorwissen in das Netzwerk zur Dichteabschätzung integriert wird. Dies ermöglicht es den Schichten im Netzwerk, global relevante diskriminierende Merkmale zu lernen, die bei der Erstellung hochaufgelöster Dichtebilder mit geringerem Zählfehler helfen. Das gemeinsame Training wird in einem end-to-end Prozess durchgeführt. Ausführliche Experimente mit hochgradig anspruchsvollen öffentlich verfügbaren Datensätzen zeigen, dass die vorgeschlagene Methode im Vergleich zu den neuesten Stand-der-Technik-Methoden einen geringeren Zählfehler und bessere Qualität der Dichtebilder erzielt.