EV-SegNet : Segmentation Sémantique pour les Caméras Basées sur les Événements

Les caméras événementielles, ou capteurs de vision dynamique (DVS), sont des capteurs très prometteurs qui ont montré plusieurs avantages par rapport aux caméras basées sur des images fixes. Cependant, la plupart des travaux récents sur les applications pratiques de ces caméras se concentrent sur la reconstruction 3D et le suivi de caméra à six degrés de liberté (6-DOF). Les approches basées sur l'apprentissage profond, qui sont à la pointe de l'art dans les tâches de reconnaissance visuelle, pourraient potentiellement tirer parti des avantages du DVS, mais certaines adaptations sont encore nécessaires pour qu'elles fonctionnent efficacement avec ces capteurs. Ce travail introduit une première référence pour la segmentation sémantique utilisant ce type de données. Nous construisons un réseau neuronal convolutif (CNN) pour la segmentation sémantique basé sur les techniques les plus avancées, qui prend en entrée uniquement des informations d'événements. De plus, nous proposons une nouvelle représentation des données DVS qui surpassent les représentations d'événements précédemment utilisées pour des tâches connexes. Comme il n'existe aucun jeu de données étiqueté pour cette tâche, nous présentons une méthode pour générer automatiquement des labels de segmentation sémantique approximés pour certaines séquences du jeu de données DDD17, que nous publions en même temps que le modèle, et démontrons qu'ils sont valides pour entraîner un modèle uniquement avec des données DVS. Nous comparons nos résultats en segmentation sémantique à partir des données DVS avec ceux obtenus à partir d'images en niveaux de gris correspondantes, démontrant ainsi leur complémentarité et l'intérêt de les combiner.