HyperAIHyperAI
il y a 16 jours

Réseaux de neurones convolutifs à base d’encodeur-décodeur avec des modules à prise en compte de multiples échelles pour le décompte de foule

Pongpisit Thanasutives, Ken-ichi Fukui, Masayuki Numao, Boonserm Kijsirikul
Réseaux de neurones convolutifs à base d’encodeur-décodeur avec des modules à prise en compte de multiples échelles pour le décompte de foule
Résumé

Dans cet article, nous proposons deux réseaux neuronaux modifiés fondés sur les architectures à fusion multi-échelle par voies parallèles (SFANet) et SegNet, afin d’obtenir un comptage précis et efficace des foules. Inspirés par SFANet, le premier modèle, nommé M-SFANet, intègre un pooling pyramidal à trous (ASPP) ainsi qu’un module contextuel conscient (CAN). L’encodeur de M-SFANet est renforcé par l’ASPP, composé de couches de convolution à trous parallèles à différents taux d’échantillonnage, permettant ainsi d’extraire des caractéristiques multi-échelle de l’objet cible tout en intégrant un contexte plus étendu. Pour mieux gérer la variation d’échelle présente dans une image d’entrée, nous exploitons le module CAN, qui encode de manière adaptative les échelles des informations contextuelles. Cette combinaison permet d’obtenir un modèle efficace pour le comptage dans des scènes de foule à la fois denses et clairsemées. En s’appuyant sur la structure du décodeur de SFANet, le décodeur de M-SFANet dispose de deux voies parallèles, destinées respectivement à la génération de la carte de densité et de la carte d’attention. Le second modèle, appelé M-SegNet, est obtenu en remplaçant le redimensionnement par interpolation bilinéaire utilisé dans SFANet par un « max unpooling », caractéristique de SegNet. Ce changement permet d’obtenir un modèle plus rapide tout en maintenant des performances de comptage compétitives. Conçu pour des applications de surveillance à haute vitesse, M-SegNet ne comporte pas de module supplémentaire sensible à l’échelle, afin d’éviter une augmentation de la complexité. Les deux modèles reposent sur une architecture encodeur-décodeur et sont entraînables de manière end-to-end. Nous menons des expérimentations étendues sur cinq jeux de données dédiés au comptage de foules ainsi qu’un jeu de données pour le comptage de véhicules, démontrant que ces modifications permettent d’améliorer les méthodes actuelles de l’état de l’art en matière de comptage de foules. Les codes sont disponibles à l’adresse suivante : https://github.com/Pongpisit-Thanasutives/Variations-of-SFANet-for-Crowd-Counting.