Apprentissage de représentations de bout en bout pour des données basées sur des événements asynchrones

Les caméras événementielles sont des capteurs de vision qui enregistrent des flux asynchrones de changements de luminosité par pixel, appelés « événements ». Elles présentent des avantages attractifs par rapport aux caméras basées sur les images pour la vision par ordinateur, notamment une haute résolution temporelle, une grande plage dynamique et l'absence de flou de mouvement. En raison du format spatio-temporel éparse et non uniforme du signal événementiel, les algorithmes de reconnaissance de motifs agglomèrent généralement les événements dans une représentation basée sur une grille, puis la traitent à travers un pipeline de vision standard, par exemple un réseau neuronal convolutif (CNN).Dans cette étude, nous introduisons un cadre général permettant de convertir les flux d'événements en représentations basées sur une grille grâce à une séquence d'opérations différentiables. Notre cadre présente deux avantages principaux : (i) il permet d'apprendre la représentation des événements d'entrée conjointement avec le réseau dédié à la tâche dans une approche bout-à-bout, et (ii) il établit une taxonomie qui unifie la majorité des représentations d'événements existantes dans la littérature et identifie des nouvelles.Expérimentalement, nous montrons que notre approche consistant à apprendre la représentation des événements bout-à-bout améliore l'estimation du flot optique et la reconnaissance d'objets d'environ 12 % par rapport aux méthodes les plus avancées actuellement disponibles.