Localisation, Taille et Comptage : Résolution Précise des Personnes dans les Foules Denses par Détection

Nous présentons un cadre de détection pour le comptage de foules denses et éliminons la nécessité du paradigme de régression de densité largement utilisé. Les modèles de comptage typiques prédiquent la densité de la foule pour une image, plutôt que de détecter chaque personne. Ces méthodes de régression échouent généralement à localiser les personnes avec suffisamment de précision pour la plupart des applications autres que le comptage. Par conséquent, nous adoptons une architecture qui localise chaque personne dans la foule, taille les têtes repérées avec des boîtes englobantes (bounding box) et les compte ensuite. Comparativement aux détecteurs d'objets ou de visages classiques, il existe certains défis uniques dans la conception d'un tel système de détection. Certains de ces défis sont des conséquences directes de la grande diversité au sein des foules denses ainsi que de la nécessité de prédire des boîtes contiguës. Nous résolvons ces problèmes et développons notre modèle LSC-CNN, capable de détecter fiablement les têtes des personnes dans des foules allant du clairsemé au dense. LSC-CNN utilise une architecture multicolonnes avec un traitement par feedback top-down pour mieux résoudre les individus et produire des prédictions affinées à plusieurs résolutions. De manière intéressante, le régime d'entraînement proposé n'a besoin que d'une annotation ponctuelle des têtes, mais peut estimer l'information approximative sur la taille des têtes. Nous montrons que LSC-CNN non seulement offre une meilleure localisation que les régresseurs de densité existants, mais qu'il surpasse également en termes de comptage. Le code pour notre approche est disponible à l'adresse suivante : https://github.com/val-iisc/lsc-cnn.