il y a un mois

Mogrifier LSTM

Gábor Melis; Tomáš Kočiský; Phil Blunsom

Résumé

De nombreux progrès en traitement automatique des langues naturelles (TALN) ont été fondés sur des modèles plus expressifs pour la manière dont les entrées interagissent avec le contexte dans lequel elles se produisent. Les réseaux récurrents, qui ont connu un certain succès, manquent encore de la généralisation et de la systématicité nécessaires pour modéliser le langage. Dans ce travail, nous proposons une extension du vénérable modèle à mémoire à court et long terme (LSTM) sous la forme d'un verrouillage mutuel entre l'entrée actuelle et la sortie précédente. Ce mécanisme permet de modéliser un espace d'interactions plus riche entre les entrées et leur contexte. De manière équivalente, notre modèle peut être considéré comme rendant la fonction de transition donnée par le LSTM dépendante du contexte. Les expériences montrent une amélioration notable de la généralisation dans le domaine de la modélisation du langage, avec une réduction de 3 à 4 points de perplexité sur Penn Treebank et Wikitext-2, et de 0,01 à 0,05 bits par caractère (bpc) sur quatre jeux de données basés sur les caractères. Nous établissons un nouveau niveau d'excellence sur tous les jeux de données, à l'exception d'Enwik8, où nous réduisons considérablement l'écart entre les modèles LSTM et Transformer.