il y a 2 mois

Réexamen du Gating : RNNs à plusieurs couches profondes qui peuvent être entraînés

Mehmet Ozgur Turkoglu; Stefano D'Aronco; Jan Dirk Wegner; Konrad Schindler

Résumé

Nous proposons une nouvelle cellule récurrente empilable (STAR) pour les réseaux de neurones récurrents (RNN), qui possède moins de paramètres que les LSTM et GRU largement utilisés tout en étant plus robuste face aux gradients qui s'évanouissent ou explosent. L'empilement d'unités récurrentes dans des architectures profondes souffre de deux limitations majeures : (i) de nombreuses cellules récurrentes (par exemple, les LSTM) sont coûteuses en termes de paramètres et de ressources de calcul ; et (ii) les RNN profonds sont sujets à des gradients qui s'évanouissent ou explosent pendant l'entraînement. Nous examinons l'entraînement des RNN multicouches et analysons l'amplitude des gradients lorsqu'ils se propagent à travers le réseau dans la direction « verticale ». Nous montrons que, selon la structure de l'unité récurrente de base, les gradients sont systématiquement atténués ou amplifiés. Sur la base de notre analyse, nous concevons un nouveau type de cellule avec portes qui préserve mieux l'amplitude du gradient. Nous validons notre conception sur un grand nombre de tâches de modélisation séquentielle et démontrons que la cellule STAR proposée permet de construire et d'entraîner des architectures récurrentes plus profondes, aboutissant finalement à une meilleure performance tout en étant plus efficace sur le plan computationnel.