Traitement événement par événement évolutif de signaux sensoriels neuromorphes avec des modèles d'espace d'état profonds

Les capteurs basés sur les événements sont particulièrement adaptés au traitement en temps réel grâce à leurs temps de réponse rapides et à leur codage des données sensorielles sous forme de différences temporelles successives. Ces propriétés, ainsi que d'autres atouts tels qu'une large dynamique, sont compromises lors de la conversion des données vers un format basé sur des trames. Or, la plupart des méthodes actuelles soit réduisent les événements à des trames, soit échouent à s'échelonner lorsqu'elles traitent directement les données événementielles événement par événement. Dans ce travail, nous abordons les défis clés liés à l'échelonnement du traitement événement par événement de longs flux événementiels émis par ces capteurs, un problème particulièrement pertinent pour le calcul neuromorphique. Alors que les méthodes antérieures ne peuvent traiter que quelques milliers d’étapes temporelles, notre modèle, fondé sur des modèles d’état profonds récurrents modernes, s’étend à des flux événementiels comptant des millions d’événements, tant pour l’apprentissage que pour l’inférence. Nous exploitons leur paramétrage stable pour capturer des dépendances à long terme, leur parallélisation le long de la dimension séquentielle, ainsi que leur capacité à intégrer efficacement des événements asynchrones afin d’assurer cette montée en échelle. Nous les complétons par de nouvelles techniques centrées sur les événements, permettant à notre modèle d’égaler ou de surpasser les performances de l’état de l’art sur plusieurs benchmarks de flux événementiels. Sur la tâche de commandes vocales à impulsions, nous améliorons l’état de l’art de manière significative, de 7,7 %, atteignant 88,4 %. Sur le jeu de données DVS128-Gestures, nous obtenons des résultats compétitifs sans recourir à des trames ni à des réseaux de neurones convolutifs. Ce travail démontre, pour la première fois, qu’il est possible d’utiliser un traitement entièrement événementiel basé uniquement sur des réseaux récurrents pour atteindre des performances de pointe sur plusieurs benchmarks événementiels.