Amélioration des modèles linguistiques préentraînés biomédicaux grâce aux connaissances

Les modèles préentraînés de langage ont démontré leur efficacité dans de nombreuses tâches de traitement du langage naturel. De nombreuses recherches s’intéressent à l’intégration de connaissances dans ces modèles. Dans le domaine biomédical, les experts ont consacré des décennies à la construction de bases de connaissances à grande échelle. Par exemple, le Unified Medical Language System (UMLS) contient des millions d’entités, ainsi que leurs synonymes, et définit des centaines de relations entre ces entités. L’exploitation de ces connaissances peut bénéficier à diverses tâches en aval, telles que la reconnaissance d’entités nommées (NER) et l’extraction de relations. À cet effet, nous proposons KeBioLM, un modèle préentraîné biomédical qui exploite explicitement les connaissances issues de la base de connaissances UMLS. Plus précisément, nous extrayons des entités à partir d’abstracts PubMed et les lions à UMLS. Ensuite, nous entraînons un modèle de langage sensible aux connaissances, qui applique d’abord une couche d’encodage basée uniquement sur le texte afin d’apprendre les représentations d’entités, puis une couche d’encodage fusionnant texte et entités pour agréger ces représentations. Par ailleurs, nous introduisons deux objectifs d’entraînement supplémentaires : la détection d’entités et le lien d’entités. Des expériences menées sur le benchmark BLURB pour la reconnaissance d’entités nommées et l’extraction de relations démontrent l’efficacité de notre approche. Une analyse complémentaire sur un jeu de données d’exploration collecté indique que notre modèle possède une meilleure capacité à modéliser les connaissances biomédicales.