HyperAIHyperAI
vor 17 Tagen

WiderPerson: Ein vielfältiges Datensatz für die dichte Fußgängererkennung in natürlichen Umgebungen

Shifeng Zhang, Yiliang Xie, Jun Wan, Hansheng Xia, Stan Z. Li, Guodong Guo
WiderPerson: Ein vielfältiges Datensatz für die dichte Fußgängererkennung in natürlichen Umgebungen
Abstract

Die Erkennung von Fußgängern hat mit der Verfügbarkeit bestehender Benchmark-Datensätze erhebliche Fortschritte erzielt. Dennoch besteht eine Lücke hinsichtlich der Vielfalt und Dichte zwischen den Anforderungen in der realen Welt und den aktuellen Benchmark-Datensätzen für die Fußgängererkennung: 1) Die meisten bestehenden Datensätze stammen aus der Perspektive eines Fahrzeugs, das durch typische Verkehrsszenarien fährt, was in der Regel zu einer unzureichenden Vielfalt führt; 2) Szenarien mit dichter Bevölkerung und stark occludierten Fußgängern sind weiterhin unterrepräsentiert, was zu einer geringen Dichte führt. Um diese Lücke zu schließen und zukünftige Forschungsarbeiten zur Fußgängererkennung zu fördern, stellen wir ein großes und vielfältiges Datenset namens WiderPerson vor, das speziell für die Erkennung dichter Fußgänger in natürlicher Umgebung (in the wild) konzipiert ist. Dieses Datenset umfasst fünf Arten von Annotationen in einer breiten Palette an Szenarien, die nicht mehr auf Verkehrsszenarien beschränkt sind. Insgesamt enthält es 13.382 Bilder mit 399.786 Annotationen, was einer durchschnittlichen Dichte von 29,87 Annotationen pro Bild entspricht – ein Hinweis auf eine hohe Dichte an Fußgängern mit unterschiedlichen Arten von Occlusion. Daher sind die Fußgänger im vorgeschlagenen Datenset äußerst herausfordernd aufgrund großer Variationen in den Szenarien und der Occlusion, was sie besonders gut geeignet macht, um Fußgänger-Detektoren in realen, unkontrollierten Umgebungen zu evaluieren. Wir stellen eine verbesserte Variante von Faster R-CNN sowie die ursprüngliche RetinaNet als Baseline-Modelle für den neuen Benchmark vor. Anhand mehrerer Experimente auf früheren Datensätzen wie Caltech-USA und CityPersons analysieren wir die Generalisierungsfähigkeit des vorgeschlagenen Datensets und erreichen dabei state-of-the-art-Leistungen auf diesen Datensätzen, ohne auf zusätzliche Tricks (bells and whistles) zurückzugreifen. Schließlich untersuchen wir typische Fehlfunktionen und stellen fest, dass die Klassifikationsfähigkeit der Fußgänger-Detektoren verbessert werden muss, um die Rate an Falschalarmen und Auslassungen zu verringern. Das vorgeschlagene Datenset ist unter http://www.cbsr.ia.ac.cn/users/sfzhang/WiderPerson verfügbar.