il y a 2 mois

Réseau neuronal récurrent indépendant profond (IndRNN)

Shuai Li; Wanqing Li; Chris Cook; Yanbo Gao

Résumé

Les réseaux de neurones récurrents (RNN) sont connus pour être difficiles à entraîner en raison des problèmes d'effacement et d'explosion du gradient, ce qui rend également difficile l'apprentissage de motifs à long terme et la construction de réseaux profonds. Pour résoudre ces problèmes, cet article propose un nouveau type de RNN dont les connexions récurrentes sont formulées comme un produit de Hadamard, appelé réseau de neurones récurrent indépendant (IndRNN), où les neurones au sein d'une même couche sont indépendants les uns des autres et connectés entre les couches. Grâce à une meilleure propagation du gradient, l'IndRNN avec des poids récurrents régulés résout efficacement les problèmes d'effacement et d'explosion du gradient, permettant ainsi l'apprentissage de dépendances à long terme. De plus, un IndRNN peut fonctionner avec des fonctions d'activation non saturantes telles que ReLU (unité linéaire rectifiée) tout en étant toujours entraîné de manière robuste. Différentes architectures IndRNN plus profondes ont été étudiées, y compris le IndRNN empilé basique, le IndRNN résiduel et le IndRNN densément connecté, toutes capables d'être beaucoup plus profondes que les RNN existants. En outre, l'IndRNN réduit le calcul à chaque pas de temps et peut être plus de 10 fois plus rapide que la mémoire à court et long terme (LSTM) couramment utilisée. Les résultats expérimentaux ont montré que l'IndRNN proposé est capable de traiter des séquences très longues et de construire des réseaux très profonds. Des performances supérieures ont été obtenues sur diverses tâches avec les IndRNN par rapport aux RNN traditionnels, aux LSTM et au populaire Transformer.