Parallélisation de la formation de l'unité mémoire de Legendre

Récemment, un nouveau réseau neuronal récurrent (RNN) appelé l'Unité de Mémoire de Legendre (LMU) a été proposé et a montré des performances de pointe sur plusieurs ensembles de données de référence. Dans ce travail, nous utilisons le composant mémoire linéaire invariant dans le temps (LTI) de l'LMU pour construire une variante simplifiée qui peut être parallélisée lors de l'entraînement (tout en étant exécutée comme un RNN lors de l'inférence), ainsi surmontant une limitation bien connue de l'entraînement des RNNs sur les GPU. Nous démontrons que cette reformulation, qui facilite la parallélisation et qui peut être appliquée généralement à tout réseau profond dont les composants récurrents sont linéaires, accélère l'entraînement jusqu'à 200 fois. Deuxièmement, pour valider son utilité, nous comparons ses performances avec celles de l'LMU originale et d'une variété de réseaux LSTM et Transformer publiés sur sept benchmarks, allant du psMNIST à l'analyse de sentiment en passant par la traduction automatique. Nous montrons que nos modèles présentent des performances supérieures sur tous les ensembles de données, souvent avec moins de paramètres. Par exemple, notre LMU établit un nouveau résultat d'état de l'art sur psMNIST et utilise la moitié des paramètres tout en surpassant les modèles DistilBERT et LSTM sur l'analyse de sentiment IMDB.