Un grand ensemble de données contextuelles pour la classification, la détection et le comptage des voitures avec l'apprentissage profond

Nous avons créé un ensemble de voitures diversifié et de grande taille à partir d'images prises en vue aérienne, utile pour entraîner une architecture d'apprentissage profond à classer, détecter et compter ces véhicules de manière binaire. L'ensemble de données ainsi que tout le matériel associé seront rendus publiquement disponibles. Cet ensemble contient des éléments contextuels pour faciliter l'identification des cibles difficiles. Nous démontrons la classification et la détection sur cet ensemble de données en utilisant un réseau neuronal que nous appelons ResCeption. Ce réseau combine l'apprentissage résiduel avec des couches de style Inception (Inception-style layers) et est utilisé pour compter les voitures en une seule passe. Il s'agit d'une nouvelle méthode de comptage d'objets, plutôt que par localisation ou estimation de densité. Elle est assez précise, rapide et facile à mettre en œuvre. De plus, cette méthode de comptage n'est pas spécifique aux voitures ou aux scènes. Il serait simple d'entraîner cette méthode pour compter d'autres types d'objets, et le comptage dans de nouvelles scènes ne nécessite aucune configuration supplémentaire ni aucune hypothèse sur les emplacements des objets.