Réseaux de routage récurrents avec mémoire auxiliaire regroupée
Les réseaux de neurones récurrents (RNN) sont difficiles à entraîner, encore plus ceux présentant une structure spatiale profonde. Des architectures fondées sur des connexions de type « highway », telles que le Recurrent Highway Network (RHN), ont été conçues pour permettre une profondeur plus importante des transitions d’étape en étape, aboutissant à des modèles plus expressifs. Toutefois, les problèmes nécessitant la capture de dépendances à long terme ne sont pas encore correctement résolus par ces modèles. En outre, la capacité à conserver des mémoires à long terme tend à s’atténuer lorsque la profondeur spatiale augmente, car une structure plus profonde peut accélérer le phénomène de disparition du gradient. Dans cet article, nous abordons ces limitations en proposant une nouvelle architecture RNN fondée sur le RHN, nommée Recurrent Highway Network with Grouped Auxiliary Memory (GAM-RHN). Cette architecture interconnecte le RHN avec un ensemble d’unités de mémoire auxiliaires spécifiquement conçues pour stocker des informations à long terme via des opérations de lecture et d’écriture, ce qui rappelle les réseaux de neurones à mémoire augmentée (MANNs). Les résultats expérimentaux sur des tâches artificielles à long délai montrent que les GAM-RHN peuvent être entraînés efficacement tout en étant profonds à la fois dans le temps et dans l’espace. Nous évaluons également l’architecture proposée sur diverses tâches, notamment la modélisation du langage, la classification séquentielle d’images et la prévision des marchés financiers. Les performances de notre approche, qui atteint des résultats de pointe sur ces différentes tâches, démontrent son potentiel.