Apprentissage des dépendances à long terme dans les RNNs avec des pertes auxiliaires

Malgré les récentes avancées dans l'entraînement des réseaux de neurones récurrents (RNN), la capture des dépendances à long terme dans les séquences reste un défi fondamental. La plupart des approches utilisent la rétropropagation à travers le temps (BPTT), qui est difficile à mettre à l'échelle pour des séquences très longues. Cet article propose une méthode simple qui améliore la capacité de capturer les dépendances à long terme dans les RNN en ajoutant une perte auxiliaire non supervisée à l'objectif initial. Cette perte auxiliaire oblige les RNN à reconstruire des événements précédents ou à prédire des événements futurs dans une séquence, rendant la rétropropagation tronquée réalisable pour des séquences longues et améliorant également la BPTT complète. Nous évaluons notre méthode sur diverses configurations, y compris la classification d'images pixel par pixel avec des longueurs de séquence allant jusqu'à 16\,000, et un benchmark de classification de documents réels. Nos résultats mettent en lumière de bonnes performances et une efficacité en ressources de cette approche par rapport aux baselines compétitives, notamment d'autres modèles récurrents et un Transformers de taille comparable. Des analyses supplémentaires révèlent les effets bénéfiques de la perte auxiliaire sur l'optimisation et la régularisation, ainsi que des cas extrêmes où il y a peu ou pas de rétropropagation.