Einzelbild-Stellengruppenzählung mittels mehrspaltigem Faltungsneuronales Netzwerk

Diese Arbeit zielt darauf ab, eine Methode zu entwickeln, die die Menschenanzahl in einer einzelnen Bildaufnahme mit beliebiger Menschenkonzentration und beliebigem Blickwinkel präzise schätzen kann. Dazu haben wir eine einfache, jedoch effektive Architektur aus mehreren Spalten bestehendem Convolutional Neural Network (MCNN) vorgeschlagen, um das Eingabebild in eine Dichtekarte der Menschenpopulation abzubilden. Die vorgeschlagene MCNN-Architektur ermöglicht Eingabebilder beliebiger Größe oder Auflösung. Durch die Verwendung von Filtern mit unterschiedlichen Empfindlichkeitsfeldern (receptive fields) sind die von jeder Spalte des CNN gelernten Merkmale an die Variationen der Menschen- bzw. Kopfgröße aufgrund perspektivischer Effekte oder Bildauflösung angepasst. Darüber hinaus wird die wahre Dichtekarte präzise auf Basis geometrieadaptiver Kerne berechnet, wobei kein Kenntnis der Perspektivkarte des Eingabebildes erforderlich ist. Da bestehende Datensätze für Menschenzählung die in dieser Arbeit betrachteten herausfordernden Situationen nicht ausreichend abdecken, haben wir ein großes, neues Datenset gesammelt und annotiert, das 1198 Bilder mit insgesamt etwa 330.000 annotierten Köpfen umfasst. Anhand dieses anspruchsvollen neuen Datensets sowie aller verfügbaren bestehenden Datensätze führen wir umfangreiche Experimente durch, um die Wirksamkeit des vorgeschlagenen Modells und der Methode zu überprüfen. Insbesondere zeigt die vorgeschlagene einfache MCNN-Modellarchitektur gegenüber allen bisherigen Methoden eine überlegene Leistung. Zudem zeigen die Experimente, dass das Modell, nachdem es auf einem Datenset trainiert wurde, problemlos auf ein neues Datenset übertragbar ist.