Réseau d'agrégation d'échelle pour une estimation précise et efficace du nombre de personnes dans une foule

Dans cet article, nous proposons un nouveau réseau encodeur-décodeur, appelé Réseau d’agrégation d’échelle (SANet), pour une estimation précise et efficace du nombre de personnes dans une foule. L’encodeur extrait des caractéristiques multi-échelles grâce à des modules d’agrégation d’échelle, tandis que le décodeur génère des cartes de densité à haute résolution à l’aide d’une série de convolution transposées. Par ailleurs, nous observons que la plupart des méthodes existantes utilisent uniquement une perte euclidienne, qui suppose l’indépendance entre chaque pixel, tout en ignorant la corrélation locale présente dans les cartes de densité. Ainsi, nous proposons une nouvelle fonction de perte combinant la perte euclidienne et une perte de cohérence des motifs locaux, qui améliore significativement les performances du modèle dans nos expériences. En outre, nous utilisons des couches de normalisation afin de faciliter le processus d’entraînement, et appliquons une stratégie d’évaluation par patchs pour atténuer l’effet du problème de décalage statistique. Pour démontrer l’efficacité de la méthode proposée, nous menons des expériences étendues sur quatre jeux de données majeurs pour l’estimation du nombre de personnes dans une foule. Résultat : notre approche atteint des performances supérieures aux méthodes de pointe, tout en nécessitant un nombre bien moindre de paramètres.