Command Palette
Search for a command to run...
Unités de mémoire de Legendre : Représentation en temps continu dans les réseaux de neurones récurrents
Unités de mémoire de Legendre : Représentation en temps continu dans les réseaux de neurones récurrents
Ivana Kajić Chris Eliasmith Aaron Voelker
Résumé
Nous proposons une nouvelle cellule mémoire pour les réseaux de neurones récurrents, capable de maintenir dynamiquement des informations sur de longues fenêtres temporelles tout en utilisant relativement peu de ressources. L’unité mémoire de Legendre (Legendre Memory Unit, LMU) est dérivée de manière mathématique afin d’orthogonaliser son historique en temps continu — cela en résolvant d équations différentielles ordinaires (ODE) couplées, dont l’espace des phases s’applique linéairement sur des fenêtres glissantes du temps via les polynômes de Legendre jusqu’au degré d−1. La rétropropagation à travers les LMU surpasse, sur une tâche de prédiction de séries temporelles chaotiques, les LSTMs de taille équivalente, améliore la capacité de mémoire d’un facteur 100, et réduit de manière significative les temps d’entraînement et d’inférence. Les LMU peuvent gérer efficacement des dépendances temporelles s’étendant sur 100 000 pas de temps, converger rapidement, et utiliser un faible nombre de variables d’état internes pour apprendre des fonctions complexes sur de longues fenêtres temporelles — dépassant ainsi les performances de l’état de l’art parmi les RNN sur le MNIST séquentiel permuté. Ces résultats s’expliquent par la capacité du réseau à apprendre des caractéristiques invariantes à l’échelle, indépendamment de la taille du pas temporel. La rétropropagation à travers le solveur d’ODE permet à chaque couche d’ajuster son propre pas interne de temps, permettant ainsi au réseau d’apprendre des échelles temporelles pertinentes pour la tâche. Nous démontrons que des cellules mémoire LMU peuvent être implémentées à l’aide de m neurones à impulsions de Poisson récursivement connectés, avec un coût en temps et en mémoire de O(m), et une erreur qui évolue comme O(d/m). Nous discutons également des implémentations des LMU sur des architectures neuromorphiques analogiques et numériques.