CrowdHuman: Eine Benchmark für die Erkennung von Menschen in einer Menge

Die Erkennung von Menschen hat in den letzten Jahren beachtliche Fortschritte gemacht. Dennoch ist das Problem der Verdeckung bei der Erkennung von Menschen in stark frequentierten Umgebungen noch lange nicht gelöst. Zu allem Übel sind Szenarien mit Menschenmengen in aktuellen Benchmark-Datensätzen zur Erkennung von Menschen noch unterrepräsentiert. In dieser Arbeit stellen wir einen neuen Datensatz vor, den CrowdHuman, um die Leistungsfähigkeit von Detektoren in Menschenmengenszenarien besser zu bewerten. Der CrowdHuman-Datensatz ist groß, umfangreich annotiert und enthält eine hohe Vielfalt. Insgesamt enthält er 470.000 Instanzen von Menschen aus den Trainings- und Validierungsteilmengen, wobei durchschnittlich etwa 22,6 Personen pro Bild abgebildet sind und verschiedene Arten von Verdeckungen im Datensatz vorkommen. Jede Menschinstanz wird mit einem Kopf-Bounding-Box, einer sichtbaren Körperregion-Bounding-Box und einer vollständigen Körper-Bounding-Box annotiert. Die Baseline-Leistung modernster Detektionsframeworks auf dem CrowdHuman-Datensatz wird präsentiert. Die Ergebnisse der Querdatensatz-Generalisierung des CrowdHuman-Datensatzes zeigen eine Spitzenleistung auf früheren Datensätzen wie Caltech-USA, CityPersons und Brainwash ohne zusätzliche Verbesserungen (bells and whistles). Wir hoffen, dass unser Datensatz als solide Baseline dienen und zukünftige Forschungsarbeiten im Bereich der Erkennung von Menschen fördern wird.