Genaue Menschenzählung über Szenen hinweg mittels tiefer konvolutioneller Neuraler Netze

Die zählende Personenüberwachung über verschiedene Szenen hinweg stellt eine anspruchsvolle Aufgabe dar, bei der keine aufwändige Datenannotation für die Zählung von Personen in neuen, im Trainingsset nicht vorkommenden Überwachungsszenen erforderlich ist. Die Leistung der meisten bestehenden Methoden zur Personenzählung nimmt erheblich ab, wenn sie auf eine unbekannte Szene angewendet werden. Um dieses Problem zu lösen, schlagen wir ein tiefes convolutionales neuronal Netzwerk (CNN) für die Personenzählung vor, das alternierend mit zwei verwandten Lernzielen – der Personen-Dichteverteilung und der Gesamtanzahl der Personen – trainiert wird. Dies vorgeschlagene schaltbare Lernverfahren ermöglicht eine bessere lokale Optimalität für beide Ziele. Um eine unbekannte Ziel-Szene zu bewältigen, präsentieren wir eine datengetriebene Methode zur Feinabstimmung des trainierten CNN-Modells für die jeweilige Ziel-Szene. Außerdem wird ein neues Datensatz vorgestellt, der 108 verschiedene Überwachungsszenen mit fast 200.000 Kopfanmerkungen umfasst, um die Genauigkeit von Methoden zur zählenden Personenüberwachung über verschiedene Szenen hinweg besser zu evaluieren. Umfangreiche Experimente an dem vorgeschlagenen Datensatz sowie an zwei weiteren bestehenden Datensätzen belegen die Wirksamkeit und Zuverlässigkeit unseres Ansatzes.