Normalisation par lots récurrente

Nous proposons une réparamétrisation du LSTM (Long Short-Term Memory) qui apporte les avantages de la normalisation par lots aux réseaux de neurones récurrents. Alors que les travaux précédents n'appliquaient la normalisation par lots qu'à la transformation entrée-cachée des RNNs (Réseaux de Neurones Récurrents), nous démontrons qu'il est à la fois possible et bénéfique de normaliser par lots la transition cachée-cachée, réduisant ainsi le décalage interne des covariables entre les pas de temps. Nous évaluons notre proposition sur divers problèmes séquentiels tels que la classification de séquences, le modèle de langage et la réponse aux questions. Nos résultats empiriques montrent que notre LSTM normalisé par lots conduit systématiquement à une convergence plus rapide et à une meilleure généralisation.