Unité de Mémoire Rotative

Les concepts de matrices d'évolution unitaires et de mémoire associative ont propulsé le domaine des Réseaux de Neurones Récurents (RNN) vers des performances de pointe dans diverses tâches séquentielles. Cependant, les RNN ont encore une capacité limitée à manipuler la mémoire à long terme. Pour contourner cette faiblesse, les applications les plus réussies des RNN utilisent des techniques externes telles que les mécanismes d'attention. Dans cet article, nous proposons un nouveau modèle de RNN qui unifie les approches de pointe : l'Unité de Mémoire Rotationnelle (RUM). Le cœur du RUM est son opération rotationnelle, qui est naturellement une matrice unitaire, offrant aux architectures la possibilité d'apprendre des dépendances à long terme en surmontant le problème des gradients qui s'évanouissent ou explosent. De plus, l'unité rotationnelle sert également de mémoire associative. Nous évaluons notre modèle sur des tâches synthétiques de mémorisation, de réponse à des questions et de modélisation linguistique. Le RUM apprend complètement la tâche Copying Memory et améliore le résultat actuel dans la tâche Recall. Les performances du RUM dans la tâche bAbI Question Answering sont comparables à celles des modèles dotés d'un mécanisme d'attention. Nous améliorons également le résultat actuel à 1,189 bit par caractère (BPC) dans la tâche Character Level Penn Treebank (PTB), ce qui signifie l'application du RUM aux données séquentielles réelles. L'universalité de notre construction au cœur des RNN établit le RUM comme une approche prometteuse pour la modélisation linguistique, la reconnaissance vocale et la traduction automatique.