Mémoire expressive à long terme pour la modélisation de séquences

Nous proposons une nouvelle méthode appelée Longue Mémoire Expressive (LEM) pour l'apprentissage des dépendances séquentielles à long terme. LEM est basée sur les gradients, elle peut traiter efficacement des tâches séquentielles avec des dépendances à très long terme, et elle est suffisamment expressive pour pouvoir apprendre des cartes d'entrée-sortie complexes. Pour dériver LEM, nous considérons un système d'équations différentielles ordinaires multi-échelles, ainsi qu'une discrétisation temporelle appropriée de ce système. Nous établissons des bornes rigoureuses pour LEM afin de montrer l'atténuation du problème des gradients explosifs et évaporants, un défi bien connu pour les méthodes d'apprentissage séquentiel récurrent basées sur les gradients. Nous prouvons également que LEM peut approximer une large classe de systèmes dynamiques avec une grande précision. Nos résultats empiriques, allant de la classification d'images et de séries temporelles à la prédiction de systèmes dynamiques en passant par la reconnaissance vocale et le modèle de langage, montrent que LEM surpasse les réseaux neuronaux récurrents, les unités récurrentes à portes (GRU) et les modèles à mémoire à court et long terme (LSTM) de pointe.