AntisymmetricRNN : Une vue systémique dynamique sur les réseaux de neurones récurrents

Les réseaux de neurones récurrents (RNR) ont acquis une utilisation généralisée dans la modélisation des données séquentielles. Cependant, l'apprentissage des dépendances à long terme à l'aide de ces modèles reste difficile en raison des gradients explosifs ou disparaissants. Dans cet article, nous établissons un lien entre les réseaux récurrents et les équations différentielles ordinaires. Sous ce cadre théorique, une forme particulière de réseaux récurrents appelée AntisymmetricRNN est proposée, qui est capable de capturer les dépendances à long terme grâce à la propriété de stabilité de son équation différentielle sous-jacente. Les approches existantes pour améliorer la facilité d'entraînement des RNR entraînent souvent un surcoût de calcul important. En revanche, l'AntisymmetricRNN atteint le même objectif par conception. Nous mettons en lumière l'avantage de cette nouvelle architecture grâce à des simulations et expériences exhaustives. L'AntisymmetricRNN présente des dynamiques beaucoup plus prévisibles. Il surpasse les modèles LSTM standards dans les tâches nécessitant une mémoire à long terme et égale leurs performances dans les tâches où les dépendances à court terme prédominent, malgré sa simplicité beaucoup plus grande.