Count- und Similarity-orientierter R-CNN für die Fußgängerdetektion

Aktuelle Methoden zur Fußgängerdetektion basieren in der Regel auf zusätzlicher Aufsicht, beispielsweise sichtbaren Bounding-Box-Anmerkungen, um starke Verdeckungen zu bewältigen. Wir stellen einen Ansatz vor, der Fußgängerdichte und Vorschlagsähnlichkeit innerhalb eines zweistufigen Detektionsrahmens nutzt. Sowohl die Fußgängerdichte als auch die Vorschlagsähnlichkeit werden aus herkömmlichen Vollkörpereannotierungen abgeleitet, die üblicherweise zur Ausbildung von Fußgängerdetektoren verwendet werden. Wir führen eine zählgewichtete Detektionsverlustfunktion ein, die Detektionsfehlern bei stark überlappenden Fußgängern höhere Gewichte zuweist. Diese Verlustfunktion wird in beiden Stufen des zweistufigen Detektors eingesetzt. Darüber hinaus integrieren wir innerhalb des zweistufigen Detektionsrahmens einen zusätzlichen Zweig zur Schätzung von Fußgängerdichte und Vorschlagsähnlichkeit. Schließlich stellen wir eine zähl- und ähnllichkeitsbewusste NMS-Strategie vor, um deutlich voneinander abweichende Vorschläge zu identifizieren. Unser Ansatz erfordert weder Teileinformationen noch sichtbare Bounding-Box-Anmerkungen. Experimente wurden auf den Datensätzen CityPersons und CrowdHuman durchgeführt. Unsere Methode erreicht auf beiden Datensätzen eine neue State-of-the-Art-Leistung. Zudem erzielt sie auf dem stark verdeckten (extbf{HO}) Testset von CityPersons eine absolute Verbesserung von 2,4 % im Vergleich zum aktuellen State-of-the-Art hinsichtlich der logarithmischen durchschnittlichen Fehlerrate. Schließlich zeigen wir die Anwendbarkeit unseres Ansatzes für das Problem der menschlichen Instanzsegmentierung. Der Quellcode und die Modelle sind verfügbar unter: https://github.com/Leotju/CaSe.