Generalisierbare Fußgängerdetektion: Das Elefant im Raum

Die Erkennung von Fußgängern wird in zahlreichen visionbasierten Anwendungen eingesetzt, die von der Videoüberwachung bis hin zu autonomen Fahrzeugen reichen. Trotz hoher Leistungsfähigkeit ist bisher weitgehend unklar, wie gut bestehende Detektoren auf unbekannte, nicht gesehene Daten generalisieren. Dies ist von entscheidender Bedeutung, da ein praktikabler Detektor in verschiedenen Szenarien innerhalb realer Anwendungen sofort einsetzbar sein sollte. In diesem Beitrag führen wir daher eine umfassende Studie durch, basierend auf dem allgemeinen Prinzip der direkten Cross-Dataset-Evaluation. Durch diese Untersuchung stellen wir fest, dass bestehende State-of-the-Art-Fußgänger-Detektoren zwar bei Trainings- und Testdaten aus derselben Datensammlung eine hervorragende Leistung erzielen, jedoch bei der Cross-Dataset-Evaluation erheblich schlechter abschneiden. Wir zeigen, dass zwei Hauptgründe für diesen Trend verantwortlich sind. Erstens sind ihre Architekturen (z. B. Anchor-Parameter) möglicherweise stark an etablierte Benchmarks im klassischen Ein-Datensatz-Trainings- und Testparadigma angepasst, wodurch ihre Generalisierungsfähigkeit erheblich eingeschränkt wird. Zweitens sind die Trainingsquellen in der Regel nicht dicht genug an Fußgängern und mangels Szenarienvielfalt nicht ausreichend diversifiziert. Überraschenderweise zeigt sich bei der direkten Cross-Dataset-Evaluation, dass ein allgemeiner Objektdetektor, der nicht speziell für Fußgänger angepasst wurde, eine deutlich bessere Generalisierungsfähigkeit aufweist als bestehende State-of-the-Art-Fußgänger-Detektoren. Zudem verdeutlichen wir, dass vielfältige und dichte Datensätze, die durch Web-Crawling gesammelt wurden, eine effiziente Quelle für das Vor-Training von Fußgänger-Detektionen darstellen. Darauf aufbauend schlagen wir einen fortschreitenden Trainingspipeline vor, die sich für die Fußgängererkennung in autonomen Fahrzeugen als besonders wirksam erweist. Insgesamt legt die in diesem Beitrag durchgeführte Studie nahe, zukünftig stärker auf Cross-Dataset-Evaluationen bei der Entwicklung allgemein anwendbarer Fußgänger-Detektoren zu setzen. Der Quellcode und die Modelle sind über https://github.com/hasanirtiza/Pedestron zugänglich.