MRCNet : Estimation du comptage de foule et de la carte de densité dans les images aériennes et terrestres

Malgré les nombreux avantages de l’imagerie aérienne pour la surveillance et la gestion des foules lors d’événements massifs, les jeux de données d’images aériennes de foules restent encore rares dans ce domaine. À titre de remède, cette étude présente un nouveau jeu de données de foules, le DLR Aerial Crowd Dataset (DLR-ACD), composé de 33 images aériennes de grande taille issues de 16 campagnes de vol réalisées lors d’événements massifs, avec une annotation de 226 291 personnes. À ce jour, le DLR-ACD constitue le premier jeu de données aérien dédié aux foules, qui sera publié publiquement. Pour aborder le problème du comptage précis des foules et de l’estimation des cartes de densité dans les images aériennes, cette recherche propose également un nouveau réseau neuronal convolutif encodeur-décodeur, nommé Multi-Resolution Crowd Network (MRCNet). L’encodeur est basé sur le réseau VGG-16, tandis que le décodeur est composé d’une série de couches d’interpolation bilinéaire et de convolution. En utilisant deux pertes, l’une à un niveau plus précoce et l’autre à la dernière couche du décodeur, MRCNet traite simultanément l’estimation du nombre de personnes et la génération de cartes de densité haute résolution comme deux tâches distinctes mais interconnectées. En outre, MRCNet exploite à la fois les informations contextuelles et les détails locaux en combinant des caractéristiques de haut et de bas niveau grâce à un ensemble de connexions latérales inspirées de la technique du Feature Pyramid Network (FPN). Nous avons évalué MRCNet sur le jeu de données DLR-ACD proposé ainsi que sur le jeu de données ShanghaiTech, une référence standard pour le comptage de foules à partir de caméras de surveillance (CCTV). Les résultats montrent que MRCNet surpasser les méthodes les plus avancées en matière de comptage de foules et d’estimation de cartes de densité, tant pour les images aériennes que pour les images issues de caméras CCTV.