il y a un mois

Réseaux de Routes Récurrents

Julian Georg Zilly; Rupesh Kumar Srivastava; Jan Koutník; Jürgen Schmidhuber

Résumé

De nombreuses tâches de traitement séquentiel nécessitent des fonctions de transition non linéaires complexes d'une étape à l'autre. Cependant, les réseaux neuronaux récurrents avec des fonctions de transition « profondes » restent difficiles à entraîner, même lorsqu'on utilise des réseaux à mémoire à court et long terme (Long Short-Term Memory, LSTM). Nous présentons une nouvelle analyse théorique des réseaux récurrents basée sur le théorème du cercle de Gersgorin, qui éclaire plusieurs problèmes de modélisation et d'optimisation et améliore notre compréhension de la cellule LSTM. Sur la base de cette analyse, nous proposons les Réseaux Autoroutiers Récurrents (Recurrent Highway Networks, RHN), qui étendent l'architecture LSTM pour permettre des profondeurs de transition d'étape à étape supérieures à un. Plusieurs expériences de modélisation linguistique montrent que l'architecture proposée conduit à des modèles puissants et efficaces. Sur le corpus Penn Treebank, augmenter uniquement la profondeur de transition de 1 à 10 améliore la perplexité au niveau des mots de 90,6 à 65,4 en utilisant le même nombre de paramètres. Sur les ensembles de données plus importants issus de Wikipedia pour la prédiction des caractères (text8 et enwik8), les RHN surpassent tous les résultats précédents et atteignent une entropie de 1,27 bit par caractère.