HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux de Routes Récurrents

Julian Georg Zilly Rupesh Kumar Srivastava Jan Koutník Jürgen Schmidhuber

Résumé

De nombreuses tâches de traitement séquentiel nécessitent des fonctions de transition non linéaires complexes d'une étape à l'autre. Cependant, les réseaux neuronaux récurrents avec des fonctions de transition « profondes » restent difficiles à entraîner, même lorsqu'on utilise des réseaux à mémoire à court et long terme (Long Short-Term Memory, LSTM). Nous présentons une nouvelle analyse théorique des réseaux récurrents basée sur le théorème du cercle de Gersgorin, qui éclaire plusieurs problèmes de modélisation et d'optimisation et améliore notre compréhension de la cellule LSTM. Sur la base de cette analyse, nous proposons les Réseaux Autoroutiers Récurrents (Recurrent Highway Networks, RHN), qui étendent l'architecture LSTM pour permettre des profondeurs de transition d'étape à étape supérieures à un. Plusieurs expériences de modélisation linguistique montrent que l'architecture proposée conduit à des modèles puissants et efficaces. Sur le corpus Penn Treebank, augmenter uniquement la profondeur de transition de 1 à 10 améliore la perplexité au niveau des mots de 90,6 à 65,4 en utilisant le même nombre de paramètres. Sur les ensembles de données plus importants issus de Wikipedia pour la prédiction des caractères (text8 et enwik8), les RHN surpassent tous les résultats précédents et atteignent une entropie de 1,27 bit par caractère.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp