il y a 2 mois

Ressusciter les réseaux de neurones récurrents pour les séquences longues

Antonio Orvieto; Samuel L Smith; Albert Gu; Anushan Fernando; Caglar Gulcehre; Razvan Pascanu; Soham De

Résumé

Les Réseaux de Neurones Récurents (RNNs) offrent une inférence rapide sur des séquences longues, mais ils sont difficiles à optimiser et lents à entraîner. Les modèles d'espace d'état profonds (SSMs) ont récemment montré des performances remarquables dans les tâches de modélisation de séquences longues, avec l'avantage supplémentaire d'un entraînement parallélisable rapide et d'une inférence rapide similaire aux RNNs. Cependant, bien que les SSMs soient superficiellement similaires aux RNNs, il existe des différences importantes qui rendent incertaines les sources de leur amélioration des performances par rapport aux RNNs. Dans cet article, nous démontrons que la conception soignée de RNNs profonds en utilisant des arguments standards de propagation du signal peut recouvrer les performances impressionnantes des SSMs profonds dans les tâches de raisonnement à long terme, tout en correspondant à leur vitesse d'entraînement. Pour y parvenir, nous analysons et évaluons une série de modifications apportées aux RNNs standards, notamment la linéarisation et la diagonalisation de la récurrence, l'utilisation de meilleures paramétrisations et initialisations, ainsi que l'assurance d'une normalisation appropriée du passage avant. Nos résultats fournissent de nouvelles perspectives sur les origines des performances impressionnantes des SSMs profonds, tout en introduisant un bloc RNN appelé Unité Récursive Linéaire qui correspond tant à leurs performances sur le benchmark Long Range Arena qu'à leur efficacité computationnelle.