Scale-aware Fast R-CNN für die Fußgängererkennung

In dieser Arbeit betrachten wir das Problem der Fußgängererkennung in natürlichen Szenen. Intuitiv können Fußgänger mit unterschiedlichen räumlichen Maßstäben erheblich verschiedene Merkmale aufweisen. Daher kann eine große Varianz der Instanzenmaßstäbe, die zu einer unerwünschten großen innerkategorialen Varianz der Merkmale führt, die Leistung moderner Objektinstanzenerkennungsverfahren stark beeinträchtigen. Wir argumentieren, dass dieses Problem durch das Teile-und-herrsche-Prinzip erheblich gelindert werden kann. Am Beispiel der Fußgängererkennung zeigen wir, wie man dieses Prinzip nutzen kann, um ein Skalenbewusstes Fast R-CNN (SAF R-CNN) Framework zu entwickeln. Das Modell führt mehrere eingebaute Untermodelle ein, die Fußgänger mit Maßstäben aus disjunkten Bereichen erkennen. Die Ausgaben aller Untermodelle werden dann mittels einer über die Größen von Objektvorschlägen definierten Schaltfunktion adaptiv kombiniert, um die endgültigen Erkennungsergebnisse zu generieren, die sich als robust gegenüber großer Varianz in den Instanzenmaßstäben herausstellen. Umfangreiche Evaluierungen auf mehreren anspruchsvollen Fußgängererkennung-Datensätzen demonstrieren die Effektivität des vorgeschlagenen SAF R-CNN. Insbesondere erreicht unsere Methode den Stand der Technik auf Caltech, INRIA und ETH und erzielt wettbewerbsfähige Ergebnisse auf KITTI.