Estimation de la densité de foule par apprentissage profond à corrélation négative

Les réseaux convolutionnels profonds (ConvNets) ont atteint des performances sans précédent sur de nombreuses tâches de vision par ordinateur. Toutefois, leur adaptation au comptage de foules à partir d’images individuelles reste encore à un stade précoce et souffre de problèmes sévères de surajustement (over-fitting). Dans ce travail, nous proposons une nouvelle stratégie d’apprentissage visant à générer des caractéristiques généralisables grâce à un apprentissage profond par corrélation négative (Negative Correlation Learning, NCL). Plus précisément, nous apprenons de manière approfondie un ensemble de régresseurs décorrélés, dotés d’une capacité de généralisation solide, en régulant leur diversité intrinsèque. La méthode proposée, nommée ConvNet décorrélé (D-ConvNet), est entraînable en bout-à-bout et indépendante des architectures de réseaux de base entièrement convolutionnels. Des expériences étendues menées sur le réseau VGGNet très profond ainsi que sur notre architecture personnalisée montrent clairement l’avantage de D-ConvNet par rapport à plusieurs méthodes de pointe. Une implémentation de notre méthode sera publiée à l’adresse suivante : https://github.com/shizenglin/Deep-NCL