HyperAIHyperAI

Command Palette

Search for a command to run...

LSTM multiplicatif pour la modélisation de séquences

Ben Krause Iain Murray Steve Renals Liang Lu

Résumé

Nous présentons le mLSTM (multiplicative LSTM), une architecture de réseau neuronal récurrent pour la modélisation de séquences qui combine les architectures de mémoire à court et long terme (LSTM) et de réseau neuronal récurrent multiplicatif. Le mLSTM se distingue par sa capacité à disposer de fonctions de transition récurrente différentes pour chaque entrée possible, ce que nous estimons rendre l'architecture plus expressive pour l'estimation de densité autoregressive. Nous démontrons empiriquement que le mLSTM surpasse le LSTM standard et ses variantes profondes dans diverses tâches de modélisation linguistique au niveau des caractères. Dans cette version du papier, nous régularisons le mLSTM pour atteindre un taux de 1,27 bit/char sur text8 et 1,24 bit/char sur Hutter Prize. Nous appliquons également un mLSTM purement au niveau des octets sur l'ensemble de données WikiText-2 pour obtenir une entropie au niveau des caractères de 1,26 bit/char, correspondant à une perplexité au niveau des mots de 88,8, ce qui est comparable aux LSTM au niveau des mots régularisés de manière similaire sur la même tâche.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
LSTM multiplicatif pour la modélisation de séquences | Articles | HyperAI