HyperAIHyperAI
il y a un mois

LSTM multiplicatif pour la modélisation de séquences

Ben Krause; Liang Lu; Iain Murray; Steve Renals
LSTM multiplicatif pour la modélisation de séquences
Résumé

Nous présentons le mLSTM (multiplicative LSTM), une architecture de réseau neuronal récurrent pour la modélisation de séquences qui combine les architectures de mémoire à court et long terme (LSTM) et de réseau neuronal récurrent multiplicatif. Le mLSTM se distingue par sa capacité à disposer de fonctions de transition récurrente différentes pour chaque entrée possible, ce que nous estimons rendre l'architecture plus expressive pour l'estimation de densité autoregressive. Nous démontrons empiriquement que le mLSTM surpasse le LSTM standard et ses variantes profondes dans diverses tâches de modélisation linguistique au niveau des caractères. Dans cette version du papier, nous régularisons le mLSTM pour atteindre un taux de 1,27 bit/char sur text8 et 1,24 bit/char sur Hutter Prize. Nous appliquons également un mLSTM purement au niveau des octets sur l'ensemble de données WikiText-2 pour obtenir une entropie au niveau des caractères de 1,26 bit/char, correspondant à une perplexité au niveau des mots de 88,8, ce qui est comparable aux LSTM au niveau des mots régularisés de manière similaire sur la même tâche.