Le neurone à mémoire fuiteuse expressif : un modèle phénoménologique efficace et expressif capable de résoudre des tâches à horizon long

Les neurones corticaux biologiques sont des dispositifs computationnels remarquablement sophistiqués, intégrant temporellement leurs vastes entrées synaptiques au sein d’un arbre dendritique complexe, sous l’effet de processus biologiques internes complexes et interagissant de manière non linéaire. Une étude récente a proposé de caractériser cette complexité en ajustant des modèles de substitution précis afin de reproduire la relation entrée-sortie d’un modèle biophysique détaillé de neurone pyramidal cortical, découvrant ainsi qu’un réseau convolutif temporel (TCN) nécessitant des millions de paramètres était requis. Toutefois, ce besoin élevé de paramètres pourrait découler d’un désalignement entre les biais inductifs du TCN et les mécanismes computationnels propres au neurone cortical. À la lumière de cette observation, et afin d’explorer les implications computationnelles des unités à mémoire fuitive et du traitement non linéaire dendritique, nous introduisons le modèle neuronal Expressive Leaky Memory (ELM), un modèle phénoménologique inspiré de la biologie pour représenter un neurone cortical. De façon remarquable, en exploitant des états cachés de type mémoire à décroissance lente ainsi qu’une intégration non linéaire en deux couches des entrées synaptiques, notre modèle ELM parvient à reproduire avec précision la relation entrée-sortie mentionnée, tout en utilisant moins de dix mille paramètres ajustables. Pour évaluer plus avant les ramifications computationnelles de cette conception neuronale, nous la testons sur diverses tâches présentant des structures temporelles exigeantes, notamment les jeux de données du Long Range Arena (LRA), ainsi qu’un nouveau jeu de données neuromorphique basé sur le dataset Spiking Heidelberg Digits (SHD-Adding). Grâce à un nombre accru d’unités de mémoire dotées d’échelles de temps suffisamment longues, ainsi qu’à une intégration synaptique correspondante sophistiquée, le neurone ELM démontre des capacités importantes de traitement à longue portée, surpassant de manière fiable les architectures classiques Transformer ou Chrono-LSTM sur le LRA, et même résolvant la tâche Pathfinder-X avec une précision dépassant 70 % (longueur de contexte de 16k).