CityPersons : Un jeu de données diversifié pour la détection des piétons

Les réseaux de neurones convolutifs (Convnets) ont permis des progrès significatifs dans la détection des piétons récemment, mais il reste encore des questions ouvertes concernant les architectures appropriées et les données d'entraînement. Nous reprenons la conception des CNN et soulignons les adaptations clés qui permettent à un Faster R-CNN standard d'obtenir des résultats de pointe sur l'ensemble de données Caltech.Pour réaliser des améliorations supplémentaires grâce à plus et de meilleures données, nous introduisons CityPersons, un nouveau jeu d'annotations de personnes basé sur l'ensemble de données Cityscapes. La diversité de CityPersons nous permet pour la première fois d'entraîner un seul modèle de CNN qui généralise bien sur plusieurs benchmarks. De plus, avec un entraînement supplémentaire utilisant CityPersons, nous obtenons des résultats optimaux en utilisant Faster R-CNN sur Caltech, en améliorant particulièrement les cas plus difficiles (occlusions importantes et petite échelle) et en offrant une meilleure qualité de localisation.