Comptage de foule contextuel

Les méthodes les plus avancées pour compter les personnes dans des scènes bondées s'appuient sur des réseaux profonds pour estimer la densité de foule. Elles utilisent généralement les mêmes filtres sur l'ensemble de l'image ou sur de grands patchs d'image. Ensuite seulement, elles estiment l'échelle locale pour compenser la distorsion perspective. Ceci est généralement réalisé en formant un classifieur auxiliaire pour sélectionner, pour des patchs d'image prédéfinis, la meilleure taille de noyau parmi un ensemble limité de choix. Par conséquent, ces méthodes ne sont pas entièrement entraînables et sont limitées dans le champ du contexte qu'elles peuvent exploiter.Dans cet article, nous présentons une architecture profonde entièrement entraînable qui combine des caractéristiques obtenues à l'aide de plusieurs tailles de champs récepteurs et apprend l'importance de chaque caractéristique à chaque emplacement de l'image. Autrement dit, notre approche encode de manière adaptative l'échelle des informations contextuelles nécessaires pour prédire avec précision la densité de foule. Cela permet d'obtenir un algorithme qui surpasses les méthodes les plus avancées actuelles pour le décompte des foules, en particulier lorsque les effets de perspective sont importants.