HyperAIHyperAI

Command Palette

Search for a command to run...

Parallélisation de la formation de l'unité mémoire de Legendre

Narsimha Chilkuri Chris Eliasmith

Résumé

Récemment, un nouveau réseau neuronal récurrent (RNN) appelé l'Unité de Mémoire de Legendre (LMU) a été proposé et a montré des performances de pointe sur plusieurs ensembles de données de référence. Dans ce travail, nous utilisons le composant mémoire linéaire invariant dans le temps (LTI) de l'LMU pour construire une variante simplifiée qui peut être parallélisée lors de l'entraînement (tout en étant exécutée comme un RNN lors de l'inférence), ainsi surmontant une limitation bien connue de l'entraînement des RNNs sur les GPU. Nous démontrons que cette reformulation, qui facilite la parallélisation et qui peut être appliquée généralement à tout réseau profond dont les composants récurrents sont linéaires, accélère l'entraînement jusqu'à 200 fois. Deuxièmement, pour valider son utilité, nous comparons ses performances avec celles de l'LMU originale et d'une variété de réseaux LSTM et Transformer publiés sur sept benchmarks, allant du psMNIST à l'analyse de sentiment en passant par la traduction automatique. Nous montrons que nos modèles présentent des performances supérieures sur tous les ensembles de données, souvent avec moins de paramètres. Par exemple, notre LMU établit un nouveau résultat d'état de l'art sur psMNIST et utilise la moitié des paramètres tout en surpassant les modèles DistilBERT et LSTM sur l'analyse de sentiment IMDB.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp