Représentations contextuelles de mots enrichies par des connaissances

Les représentations contextuelles de mots, généralement entraînées sur des textes non structurés et non étiquetés, ne contiennent aucune ancrage explicite aux entités du monde réel et sont souvent incapables de mémoriser des faits concernant ces entités. Nous proposons une méthode générale pour intégrer plusieurs bases de connaissances (KB) dans des modèles à grande échelle, afin d’enrichir leurs représentations par des connaissances structurées et soigneusement curatrices par des humains. Pour chaque base de connaissances, nous utilisons d’abord un lienneur d’entités intégré afin de récupérer les embeddings associés aux entités pertinentes, puis nous mettons à jour les représentations contextuelles des mots grâce à une forme d’attention mot-entité. Contrairement aux approches antérieures, les lienneurs d’entités et l’objectif d’apprentissage auto-supervisé de modélisation du langage sont entraînés conjointement de manière end-to-end dans un cadre multitâche combinant une faible quantité de supervision pour le lienage d’entités et une grande quantité de texte brut. Après avoir intégré WordNet et un sous-ensemble de Wikipedia dans BERT, le modèle enrichi en connaissances, appelé KnowBert, montre une perplexité améliorée, une meilleure capacité à rappeler des faits, mesurée par une tâche d’exploration (probing task), ainsi qu’une performance accrue sur des tâches de terrain comme l’extraction de relations, le typage d’entités et la désambiguïsation de sens des mots. Le temps d’exécution de KnowBert est comparable à celui de BERT et il s’adapte à des bases de connaissances de grande taille.