HyperAIHyperAI

Command Palette

Search for a command to run...

Mogrifier LSTM

Gábor Melis Tomáš Kočiský Phil Blunsom

Résumé

De nombreux progrès en traitement automatique des langues naturelles (TALN) ont été fondés sur des modèles plus expressifs pour la manière dont les entrées interagissent avec le contexte dans lequel elles se produisent. Les réseaux récurrents, qui ont connu un certain succès, manquent encore de la généralisation et de la systématicité nécessaires pour modéliser le langage. Dans ce travail, nous proposons une extension du vénérable modèle à mémoire à court et long terme (LSTM) sous la forme d'un verrouillage mutuel entre l'entrée actuelle et la sortie précédente. Ce mécanisme permet de modéliser un espace d'interactions plus riche entre les entrées et leur contexte. De manière équivalente, notre modèle peut être considéré comme rendant la fonction de transition donnée par le LSTM dépendante du contexte. Les expériences montrent une amélioration notable de la généralisation dans le domaine de la modélisation du langage, avec une réduction de 3 à 4 points de perplexité sur Penn Treebank et Wikitext-2, et de 0,01 à 0,05 bits par caractère (bpc) sur quatre jeux de données basés sur les caractères. Nous établissons un nouveau niveau d'excellence sur tous les jeux de données, à l'exception d'Enwik8, où nous réduisons considérablement l'écart entre les modèles LSTM et Transformer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp