LUKE : Représentations contextualisées profondes d'entités avec une attention auto-attention sensible aux entités

Les représentations d’entités sont utiles dans les tâches de traitement du langage naturel impliquant des entités. Dans cet article, nous proposons de nouvelles représentations préentraînées contextuelles pour les mots et les entités, fondées sur le transformateur bidirectionnel. Le modèle proposé traite les mots et les entités présents dans un texte donné comme des jetons indépendants, et produit des représentations contextuelles pour chacun d’eux. Notre modèle est entraîné à l’aide d’une nouvelle tâche de préentraînement basée sur le modèle de langage masqué (masked language model) de BERT. Cette tâche consiste à prédire des mots et des entités aléatoirement masqués dans un grand corpus annoté d’entités extrait de Wikipedia. Nous proposons également un mécanisme d’attention auto-attentive sensible aux entités, qui constitue une extension du mécanisme d’attention du transformateur, et qui prend en compte le type de jeton (mot ou entité) lors du calcul des scores d’attention. Le modèle proposé obtient des performances empiriques remarquables sur une large gamme de tâches liées aux entités. En particulier, il atteint des résultats de pointe sur cinq jeux de données bien connus : Open Entity (typage d’entités), TACRED (classification de relations), CoNLL-2003 (reconnaissance d’entités nommées), ReCoRD (question réponse du type cloze) et SQuAD 1.1 (question réponse extraite). Le code source et les représentations préentraînées sont disponibles à l’adresse suivante : https://github.com/studio-ousia/luke.