Apprentissage de la conscience spatiale pour améliorer le dénombrement de foule

L'objectif du comptage de foule consiste à estimer le nombre de personnes présentes dans une image en exploitant les annotations des positions centrales des têtes des piétons. Des progrès prometteurs ont été réalisés grâce à la généralisation des réseaux de neurones profonds à convolution (CNN). Les méthodes existantes utilisent largement la distance euclidienne (c’est-à-dire la perte $L_2$) pour optimiser les modèles, mais celle-ci présente deux inconvénients majeurs : (1) elle peine à apprendre une conscience spatiale (c’est-à-dire la position de la tête), car elle échoue à préserver les variations à haute fréquence dans la carte de densité ; (2) elle est très sensible à divers types de bruit présents dans le comptage de foule, tels que le bruit de moyenne nulle, les variations de taille des têtes ou les occlusions. Bien que la perte Maximum Excess over SubArrays (MESA) ait été précédemment proposée pour atténuer ces problèmes en identifiant la sous-région rectangulaire dont la carte de densité prédite présente la plus grande différence par rapport à la vérité terrain, elle ne peut pas être optimisée par descente de gradient, ce qui la rend difficilement intégrable dans un cadre d’apprentissage profond. Dans cet article, nous proposons une nouvelle architecture appelée SPatial Awareness Network (SPANet), conçue pour intégrer un contexte spatial dans le comptage de foule. Nous introduisons une nouvelle fonction de perte, la perte Maximum Excess over Pixels (MEP), qui permet d’atteindre cet objectif en recherchant la sous-région au niveau pixel dont l’écart par rapport à la vérité terrain est le plus élevé. Pour cela, nous avons conçu un schéma d’apprentissage faiblement supervisé basé sur une architecture à plusieurs branches afin de générer automatiquement de telles régions. Le cadre proposé peut être facilement intégré aux méthodes existantes de comptage de foule profondes et est entièrement entraînable en end-to-end. Des expériences étendues sur quatre benchmarks exigeants montrent que notre méthode améliore significativement les performances des modèles de base. Plus remarquablement encore, notre approche dépasse les méthodes de l’état de l’art sur l’ensemble des jeux de données benchmarks.