Réseaux Neuraux Quasi-Récurents

Les réseaux de neurones récurrents (RNN) sont un outil puissant pour modéliser les données séquentielles, mais la dépendance du calcul de chaque pas de temps à la sortie du pas de temps précédent limite le parallélisme et rend les RNN peu maniables pour des séquences très longues. Nous présentons les réseaux de neurones quasi-récurrents (QRNN), une approche de modélisation de séquences neuronales qui alterne des couches de convolution, s'appliquant en parallèle sur tous les pas de temps, et une fonction d'agrégation récurrente minimaliste, s'appliquant en parallèle sur tous les canaux. Malgré l'absence de couches récurrentes entraînables, les QRNN empilés offrent une meilleure précision prédictive que les LSTM empilés de même taille cachée. Grâce à leur parallélisme accru, ils peuvent être jusqu'à 16 fois plus rapides lors des phases d'entraînement et de test. Des expériences sur la modélisation linguistique, la classification des sentiments et la traduction automatique neuronale au niveau des caractères mettent en évidence ces avantages et soulignent la viabilité des QRNN comme bloc de base pour diverses tâches séquentielles.