Réseau neuronal convolutif à commutation pour le décompte de foule

Nous proposons un nouveau modèle de comptage de foule qui associe une scène de foule donnée à sa densité. L'analyse des foules est compliquée par de nombreux facteurs tels que l'occlusion mutuelle entre les personnes en raison d'une forte densité, la grande similitude d'apparence entre les personnes et les éléments du fond, ainsi que la variabilité importante des points de vue des caméras. Les approches actuelles de pointe abordent ces facteurs en utilisant des architectures CNN multi-échelles, des réseaux récurrents et une fusion tardive des caractéristiques issues de CNN multicolumnes avec différents champs récepteurs. Nous proposons un réseau neuronal convolutif commutatif (switching convolutional neural network) qui exploite la variation de la densité de foule au sein d'une image pour améliorer la précision et la localisation du décompte prédit. Des fragments d'image issus d'une grille dans une scène de foule sont transmis à des régresseurs CNN indépendants en fonction de la qualité de prédiction du décompte établie lors de l'entraînement. Les régresseurs CNN indépendants sont conçus pour avoir différents champs récepteurs, et un classificateur commutateur est entraîné pour diriger le fragment de scène de foule vers le meilleur régresseur CNN. Nous menons des expériences exhaustives sur tous les principaux jeux de données de comptage de foule et fournissons des preuves d'une meilleure performance par rapport aux méthodes actuelles de pointe. Nous offrons également des représentations interprétables du multichotomie (multichotomy) de l'espace des fragments d'image provenant du commutateur. Il est observé que le commutateur dirige un fragment d'image vers une colonne CNN spécifique en fonction de la densité de foule.