Réseau neuronal récurrent indépendant (IndRNN) : Construire un RNN plus long et plus profond

Les réseaux de neurones récurrents (RNN) sont largement utilisés pour le traitement des données séquentielles. Cependant, les RNN sont généralement difficiles à entraîner en raison des problèmes bien connus de disparition et d'explosion du gradient, et ils ont du mal à apprendre des motifs à long terme. Les unités de mémoire à court et long terme (LSTM) et les unités récurrentes à porte (GRU) ont été développées pour résoudre ces problèmes, mais l'utilisation des fonctions d'activation tangente hyperbolique et sigmoïde entraîne une décroissance du gradient au fil des couches. Par conséquent, la construction d'un réseau profond efficacement entraînable est un défi. De plus, tous les neurones dans une couche RNN sont entrelacés et leur comportement est difficile à interpréter. Pour remédier à ces problèmes, ce document propose un nouveau type de RNN appelé réseau de neurones récurrents indépendants (IndRNN), où les neurones dans la même couche sont indépendants les uns des autres et connectés entre les couches. Nous avons montré qu'un IndRNN peut être facilement régulé pour prévenir les problèmes d'explosion et de disparition du gradient tout en permettant au réseau d'apprendre des dépendances à long terme. De plus, un IndRNN peut fonctionner avec des fonctions d'activation non saturantes telles que relu (unité linéaire rectifiée) tout en restant robustement entraînable. Plusieurs IndRNN peuvent être empilés pour construire un réseau plus profond que les RNN existants. Les résultats expérimentaux ont montré que l'IndRNN proposé est capable de traiter des séquences très longues (plus de 5000 pas de temps), peut être utilisé pour construire des réseaux très profonds (21 couches utilisées dans l'expérience) et reste robustement entraînable. Des performances supérieures ont été obtenues sur diverses tâches en utilisant des IndRNN par rapport aux RNN traditionnels et aux LSTM. Le code est disponible sur https://github.com/Sunnydreamrain/IndRNN_Theano_Lasagne.