Réseaux de neurones spikants à attention temporelle pour la classification des flux d’événements

Traiter efficacement et efficacement des flux d’événements spatio-temporels, où les événements sont généralement rares, non uniformes et présentent une résolution temporelle au niveau du microseconde, revêt une grande importance et trouve de nombreuses applications concrètes. Les réseaux de neurones à impulsions (SNN, spiking neural networks), en tant que l’un des modèles de calcul inspirés du cerveau basés sur le déclenchement d’événements, ont le potentiel d’extraire des caractéristiques spatio-temporelles pertinentes à partir de ces flux. Toutefois, lors de l’agrégation des événements individuels en trames à une résolution temporelle plus élevée, les modèles SNN existants ne tiennent pas suffisamment compte du fait que les trames successives présentent des rapports signal-bruit inégaux, en raison de la nature éparsse et non uniforme des flux d’événements. Cette situation nuit à la performance des SNN actuels. Dans ce travail, nous proposons un modèle SNN à attention temporelle (TA-SNN) afin d’apprendre une représentation basée sur les trames pour le traitement des flux d’événements. Plus précisément, nous étendons le concept d’attention aux entrées temporelles afin d’évaluer, durant l’entraînement, l’importance relative de chaque trame pour la décision finale, et d’éliminer les trames non pertinentes lors de l’inférence. Nous démontrons que les modèles TA-SNN améliorent significativement la précision des tâches de classification des flux d’événements. Nous étudions également l’impact de différentes résolutions temporelles à plusieurs échelles sur la représentation basée sur les trames. Notre approche est évaluée sur trois tâches de classification distinctes : reconnaissance de gestes, classification d’images et reconnaissance de chiffres parlés. Nous rapportons des résultats parmi les meilleurs à ce jour sur ces tâches, obtenant une amélioration essentielle de la précision (près de 19 %) pour la reconnaissance de gestes, avec seulement 60 ms de latence.