Funktioniert Faster R-CNN gut für die Fußgängererkennung?

Die Erkennung von Fußgängern wird oft als ein besonderes Thema über den allgemeinen Objekterkennungsbereich hinaus betrachtet. Obwohl aktuelle Deep-Learning-Objekterkennungsmodelle wie Fast/Faster R-CNN [1, 2] für die allgemeine Objekterkennung ausgezeichnete Leistungen gezeigt haben, erzielen sie bei der Erkennung von Fußgängern nur begrenzten Erfolg. Frühere führende Fußgängererkennungsverfahren waren im Allgemeinen hybride Methoden, die manuell gestaltete und tiefe Faltungsspezifische Merkmale kombinierten. In dieser Arbeit untersuchen wir Probleme, die mit Faster R-CNN [2] bei der Fußgängererkennung verbunden sind. Wir stellen fest, dass das Region Proposal Network (RPN) in Faster R-CNN tatsächlich gut als eigenständiger Fußgängererkennungsansatz funktioniert, jedoch überraschenderweise der nachgeschaltete Klassifikator die Ergebnisse verschlechtert. Wir argumentieren, dass zwei Gründe für die unzufriedenstellende Genauigkeit verantwortlich sind: (i) eine unzureichende Auflösung der Merkmalskarten zur Verarbeitung kleiner Instanzen und (ii) das Fehlen einer Bootstrapping-Strategie zur Gewinnung schwieriger negativer Beispiele. Auf Basis dieser Beobachtungen schlagen wir eine sehr einfache, aber effektive Baseline für die Fußgängererkennung vor, die ein RPN und darauf folgende Boosted Forests auf geteilten, hochaufgelösten Faltungsspezifischen Merkmalskarten verwendet. Wir bewerten diese Methode umfassend an mehreren Benchmarks (Caltech, INRIA, ETH und KITTI), wobei wir wettbewerbsfähige Genauigkeit und gute Geschwindigkeit präsentieren. Der Code wird öffentlich zugänglich gemacht.