HyperAIHyperAI

Command Palette

Search for a command to run...

Réexamen du Gating : RNNs à plusieurs couches profondes qui peuvent être entraînés

Mehmet Ozgur Turkoglu Stefano D’Aronco Jan Dirk Wegner Konrad Schindler

Résumé

Nous proposons une nouvelle cellule récurrente empilable (STAR) pour les réseaux de neurones récurrents (RNN), qui possède moins de paramètres que les LSTM et GRU largement utilisés tout en étant plus robuste face aux gradients qui s'évanouissent ou explosent. L'empilement d'unités récurrentes dans des architectures profondes souffre de deux limitations majeures : (i) de nombreuses cellules récurrentes (par exemple, les LSTM) sont coûteuses en termes de paramètres et de ressources de calcul ; et (ii) les RNN profonds sont sujets à des gradients qui s'évanouissent ou explosent pendant l'entraînement. Nous examinons l'entraînement des RNN multicouches et analysons l'amplitude des gradients lorsqu'ils se propagent à travers le réseau dans la direction « verticale ». Nous montrons que, selon la structure de l'unité récurrente de base, les gradients sont systématiquement atténués ou amplifiés. Sur la base de notre analyse, nous concevons un nouveau type de cellule avec portes qui préserve mieux l'amplitude du gradient. Nous validons notre conception sur un grand nombre de tâches de modélisation séquentielle et démontrons que la cellule STAR proposée permet de construire et d'entraîner des architectures récurrentes plus profondes, aboutissant finalement à une meilleure performance tout en étant plus efficace sur le plan computationnel.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp