Unités récurrentes orthogonales avec porte : Sur l'apprentissage de l'oubli

Nous présentons un modèle basé sur un nouveau réseau neuronal récurrent (RNN) qui combine la capacité de mémorisation des RNN unitaires avec la capacité des RNN à portes de s'effacer efficacement les informations redondantes ou non pertinentes dans leur mémoire. Nous atteignons cet objectif en étendant les RNN unitaires avec un mécanisme de portes. Notre modèle est capable de surpasser les LSTM, GRU et RNN unitaires sur plusieurs tâches de référence impliquant des dépendances à long terme. Nous montrons empiriquement que les RNN orthogonaux/unitaires manquent de la capacité d'oubli, ainsi que la capacité du GORU à mémoriser simultanément des dépendances à long terme tout en oubliant les informations non pertinentes. Cela joue un rôle important dans les réseaux neuronaux récurrents. Nous fournissons des résultats compétitifs accompagnés d'une analyse de notre modèle sur de nombreuses tâches séquentielles naturelles, notamment le Question Answering bAbI, la prédiction du spectre vocal TIMIT, Penn TreeBank et des tâches synthétiques impliquant des dépendances à long terme telles que les tâches algorithmiques, l'équilibrage des parenthèses, le débruitage et la copie.