HyperAIHyperAI
il y a 17 jours

Identification de maladies rares à partir de notes cliniques par une approche pilotée par l’ontologie et faiblement supervisée

Hang Dong, Víctor Suárez-Paniagua, Huayu Zhang, Minhong Wang, Arlene Casey, Emma Davidson, Jiaoyan Chen, Beatrice Alex, William Whiteley, Honghan Wu
Identification de maladies rares à partir de notes cliniques par une approche pilotée par l’ontologie et faiblement supervisée
Résumé

La phénoménologie textuelle computationnelle consiste à identifier des patients atteints de troubles spécifiques à partir de notes cliniques. Les maladies rares sont particulièrement difficiles à détecter en raison du faible nombre de cas disponibles pour l'apprentissage automatique et de la nécessité d'une annotation de données par des experts du domaine. Nous proposons une méthode fondée sur les ontologies et la supervision faible, exploitant récemment des représentations contextuelles pré-entraînées issues de modèles bidirectionnels à transformateurs (tels que BERT). Le cadre basé sur les ontologies comporte deux étapes : (i) Texte vers UMLS, extraction de phénomènes en liant contextuellement les mentions aux concepts du Unified Medical Language System (UMLS), à l’aide d’un outil de reconnaissance et d’association d’entités nommées (NER+L), SemEHR, combiné à une supervision faible basée sur des règles personnalisées et des représentations contextuelles des mentions ; (ii) UMLS vers ORDO, correspondance entre les concepts UMLS et les maladies rares de l’Ontologie des maladies rares Orphanet (ORDO). L’approche à supervision faible vise à apprendre un modèle de confirmation des phénomènes afin d’améliorer le lien Texte vers UMLS, sans nécessiter d’étiquetage manuel par des experts du domaine. Nous avons évalué cette méthode sur trois jeux de données cliniques : les résumés de sortie de MIMIC-III, les rapports d’imagerie de MIMIC-III et les rapports d’imagerie cérébrale de NHS Tayside provenant de deux institutions aux États-Unis et au Royaume-Uni, tous annotés. Les améliorations en précision ont été marquées (augmentation de plus de 30 à 50 points absolus pour le lien Texte vers UMLS), tout en conservant presque intacte la rappel par rapport à l’outil NER+L existant, SemEHR. Les résultats obtenus sur les rapports d’imagerie de MIMIC-III et de NHS Tayside sont cohérents avec ceux des résumés de sortie. L’ensemble du pipeline permet d’extraire des cas de maladies rares dans les notes cliniques, la plupart étant ignorés dans les données structurées (codes ICD attribués manuellement). Nous discutons de l’utilité de l’approche à supervision faible et proposons des pistes pour des études futures.

Identification de maladies rares à partir de notes cliniques par une approche pilotée par l’ontologie et faiblement supervisée | Articles de recherche récents | HyperAI