Modèles de langage prenant en compte les références

Nous proposons une classe générale de modèles de langage qui traitent la référence comme une variable latente stochastique explicite. Cette architecture permet aux modèles de créer des mentions d'entités et de leurs attributs en accédant à des bases de données externes (nécessaires par exemple pour la génération de dialogues et de recettes) et à l'état interne (nécessaire par exemple pour les modèles de langage conscients des co-références). Cela facilite l'intégration d'informations qui peuvent être accessibles dans des emplacements prévisibles dans les bases de données ou le contexte discursif, même lorsque les cibles de la référence peuvent être des mots rares. Des expériences sur trois tâches montrent les variantes de notre modèle basées sur l'attention déterministe.