HyperAIHyperAI
il y a 2 mois

Réseaux de neurones récurrents dilatés

Shiyu Chang; Yang Zhang; Wei Han; Mo Yu; Xiaoxiao Guo; Wei Tan; Xiaodong Cui; Michael Witbrock; Mark Hasegawa-Johnson; Thomas S. Huang
Réseaux de neurones récurrents dilatés
Résumé

L'apprentissage avec des réseaux de neurones récurrents (RNNs) sur de longues séquences est une tâche notoirement difficile. Il existe trois défis majeurs : 1) les dépendances complexes, 2) les gradients qui s'évanouissent ou explosent, et 3) la parallélisation efficace. Dans cet article, nous présentons une structure de connexion RNN simple mais efficace, le DilatedRNN, qui aborde simultanément tous ces défis. L'architecture proposée est caractérisée par des connexions récurrentes dilatées à multiples résolutions et peut être combinée de manière flexible avec diverses cellules RNN. De plus, le DilatedRNN réduit le nombre de paramètres nécessaires et améliore considérablement l'efficacité de l'entraînement, tout en égalant les performances de pointe (même avec des cellules RNN standard) dans les tâches impliquant des dépendances à très long terme. Pour quantifier les avantages de cette architecture sur une base théorique, nous introduisons une mesure de capacité mémoire, la longueur récurrente moyenne, qui est plus adaptée aux RNNs avec des connexions sauteuses à longue portée que les mesures existantes. Nous prouvons rigoureusement les avantages du DilatedRNN par rapport aux autres architectures neuronales récurrentes. Le code de notre méthode est disponible au public sur https://github.com/code-terminator/DilatedRNN.

Réseaux de neurones récurrents dilatés | Articles de recherche récents | HyperAI