Rétropropagation hybride de niveau macro/micro pour l'entraînement de réseaux neuronaux profonds à impulsions

Les réseaux de neurones à impulsions (SNNs) sont destinés à permettre le traitement d'informations spatio-temporelles et l'utilisation de matériel néuromorphique événementiel à ultra-basse consommation. Cependant, les SNNs n'ont pas encore atteint les mêmes performances que les réseaux de neurones artificiels profonds conventionnels (ANNs), un défi de longue date dû aux dynamiques complexes et aux événements d'impulsion non différentiables rencontrés lors de l'entraînement. Les méthodes actuelles de rétropropagation d'erreur (BP) pour les SNNs sont limitées en termes de scalabilité, de gestion inadéquate des discontinuités d'impulsion et/ou de désaccord entre la fonction de perte codée par taux et le gradient calculé. Nous présentons un algorithme hybride de rétropropagation au niveau macro/micro (HM2-BP) pour l'entraînement des SNNs multicouches. Les effets temporels sont précisément capturés par le potentiel postsynaptique au niveau du train d'impulsions (S-PSP) proposé au niveau microscopique. Les erreurs codées par taux sont définies au niveau macroscopique, calculées et rétropropagées à travers les niveaux macroscopique et microscopique. Contrairement aux méthodes BP existantes, HM2-BP calcule directement le gradient de la fonction de perte codée par taux par rapport aux paramètres ajustables. Nous évaluons l'algorithme HM2-BP proposé en entraînant des SNNs entièrement connectés et convolutifs profonds basés sur le jeu de données statique MNIST [14] et le jeu de données néuromorphique dynamique N-MNIST [26]. HM2-BP atteint des niveaux d'exactitude respectivement de 99,49 % pour MNIST et 98,88 % pour N-MNIST, surpassant les meilleures performances signalées obtenues avec les algorithmes BP existants pour les SNNs. De plus, HM2-BP produit les plus hautes exactitudes basées sur les SNNs pour le jeu de données EMNIST [3], et conduit à une haute précision de reconnaissance pour les lettres anglaises parlées par 16 locuteurs du corpus TI46 [16], un benchmark difficile de reconnaissance vocale spatio-temporelle pour lequel aucun succès précédent basé sur des SNNs n'a été signalé. Il obtient également des performances compétitives dépassant celles des modèles d'apprentissage profond conventionnels lorsqu'ils traitent des flux d'impulsions asynchrones.