Apprentissage en cascade multi-tâche basé sur CNN de priorité de haut niveau et d'estimation de densité pour le comptage de foule

L'estimation du nombre de personnes dans des scènes très densément peuplées est une tâche extrêmement difficile en raison des variations d'échelle non uniformes. Dans cet article, nous proposons un nouveau réseau en cascade de CNN (Convolutional Neural Networks) permettant d'apprendre conjointement la classification du nombre de personnes et l'estimation de la carte de densité. La classification du nombre de personnes en différents groupes revient à estimer grossièrement le nombre total de personnes dans l'image, ce qui intègre une contrainte de haut niveau au réseau d'estimation de la densité. Cela permet aux couches du réseau d'apprendre des caractéristiques discriminantes globalement pertinentes, facilitant ainsi l'estimation de cartes de densité très raffinées avec une erreur de décompte moindre. L'entraînement conjoint est effectué selon une approche bout-à-bout. De nombreux expériences menées sur des jeux de données publiquement disponibles et particulièrement difficiles montrent que la méthode proposée atteint une erreur de décompte plus faible et des cartes de densité de meilleure qualité par rapport aux méthodes les plus récentes et avancées.