Compréhension approfondie des documents cliniques grâce à l'extraction de relations

La croissance exponentielle de la littérature biomédicale et des dossiers cliniques numériques soulève un besoin croissant de techniques d’extraction de texte capables non seulement d’identifier mais aussi de relier sémantiquement les entités dans les données non structurées. Dans cet article, nous proposons un cadre d’extraction de texte basé sur des modèles de reconnaissance d’entités nommées (NER) et d’extraction de relations (RE), qui s’inscrit dans une évolution significative par rapport aux travaux antérieurs en trois aspects principaux. Premièrement, nous introduisons deux nouvelles architectures de modèles d’extraction de relations : un modèle optimisé pour la précision, basé sur BioBERT, et un modèle optimisé pour la vitesse, exploitant des caractéristiques conçues spécifiquement avec un réseau de neurones entièrement connecté (FCNN). Deuxièmement, nous évaluons ces deux modèles sur des jeux de données publics de référence et obtenons de nouveaux scores F1 de pointe (state-of-the-art) sur le défi i2b2 2012 sur les relations temporelles cliniques (F1 de 73,6, soit une amélioration de +1,2 % par rapport au précédent état de l’art), le défi i2b2 2010 sur les relations cliniques (F1 de 69,1, +1,2 %), le jeu de données 2019 sur les relations phénotype-gène (F1 de 87,9, +8,5 %), le jeu de données 2012 sur les événements indésirables liés aux médicaments (F1 de 90,0, +6,3 %) et le jeu de données n2c2 2018 sur les relations posologiques (F1 de 96,7, +0,6 %). Troisièmement, nous démontrons deux applications pratiques de ce cadre : la construction d’un graphe de connaissance biomédicale et l’amélioration de la précision de la correspondance des entités aux codes cliniques. Le système est développé à l’aide de la bibliothèque Spark NLP, qui offre un cadre NLP de production, nativement évolutif, optimisé matériellement, entraînable et ajustable.