Évaluation du dénombrement de foule à travers des scènes par réseaux de neurones convolutionnels profonds

Le comptage de foules à travers différentes scènes constitue une tâche difficile, car il ne nécessite aucune annotation manuelle des données pour compter les personnes dans de nouvelles scènes de surveillance de foules non vues lors de l’entraînement. La performance de la plupart des méthodes existantes de comptage de foules chute considérablement lorsqu’elles sont appliquées à une scène inédite. Pour résoudre ce problème, nous proposons un réseau neuronal convolutif profond (CNN) pour le comptage de foules, entraîné de manière alternative selon deux objectifs d’apprentissage liés : la densité de foule et le nombre total de personnes. Cette approche d’apprentissage interchangeable permet d’atteindre un meilleur optimum local pour chacun des deux objectifs. Pour traiter une scène cible inédite, nous introduisons une méthode fondée sur les données afin de fin-tuner le modèle CNN entraîné sur la scène cible. Un nouveau jeu de données comprenant 108 scènes de foules avec près de 200 000 annotations de têtes est proposé afin d’évaluer plus précisément l’exactitude des méthodes de comptage de foules à travers différentes scènes. Des expériences étendues sur le jeu de données proposé ainsi que sur deux autres jeux de données existants démontrent l’efficacité et la fiabilité de notre approche.