Diviser et Croître : Capturer une Grande Diversité dans les Images de Foule avec un CNN en Croissance Incrementielle

Le décompte automatisé de personnes dans des images de foules est une tâche complexe. La principale difficulté provient de la grande diversité des apparences des personnes au sein des foules. En effet, les caractéristiques disponibles pour la discrimination des foules dépendent largement de la densité de la foule, au point que les personnes ne sont perçues que comme des masses indistinctes dans un scénario très dense. Nous abordons ce problème en utilisant un réseau neuronal convolutif (CNN) en croissance qui peut progressivement augmenter sa capacité pour prendre en compte la variabilité importante observée dans les scènes de foule. Notre modèle commence par un estimateur de densité CNN de base, qui est formé équitablement sur tous les types d'images de foule. Pour s'adapter à cette grande diversité, nous créons deux estimateurs enfants qui sont des copies exactes du CNN de base. Une procédure d'entraînement différentiel divise le jeu de données en deux clusters et affine les réseaux enfants sur leurs spécialités respectives. Par conséquent, sans critères manuellement définis pour former ces spécialités, les estimateurs enfants deviennent des experts sur certains types de foules. Les réseaux enfants sont à nouveau divisés récursivement, créant deux experts à chaque division. Cette formation hiérarchique aboutit à un arbre CNN, où les estimateurs enfants sont plus fins experts que leurs parents respectifs. Les nœuds terminaux sont considérés comme les experts finaux et un réseau classificateur est ensuite formé pour prédire la spécialité correcte pour un patch d'image test donné. Le modèle proposé atteint une précision supérieure dans le décompte sur les principaux jeux de données de foules. De plus, nous analysons les caractéristiques des spécialités découvertes automatiquement par notre méthode.