Amélioration des modèles de langage neuronaux avec un cache continu

Nous proposons une extension des modèles de langage basés sur les réseaux de neurones pour adapter leurs prédictions à l'historique récent. Notre modèle est une version simplifiée des réseaux de neurones augmentés par la mémoire, qui stockent les activations cachées passées en tant que mémoire et y accèdent par un produit scalaire avec l'activation cachée actuelle. Ce mécanisme est très efficace et peut être mis à l'échelle pour des tailles de mémoire très importantes. Nous établissons également un lien entre l'utilisation d'une mémoire externe dans les réseaux de neurones et les modèles de cache utilisés avec les modèles de langage basés sur le comptage. Nous démontrons sur plusieurs jeux de données de modèles de langage que notre approche performe significativement mieux que les réseaux de neurones augmentés par la mémoire récents.