Défis du traitement automatique du langage naturel en milieu clinique pour la normalisation des troubles
ContexteL’identification de variables clés, telles que les troubles mentionnés dans les récits cliniques des dossiers de santé électroniques, présente des applications étendues en pratique clinique et en recherche biomédicale. Des travaux antérieurs ont montré une performance réduite de la reconnaissance d’entités nommées (NER) et de la normalisation (ou « grounding ») des troubles dans les récits cliniques par rapport aux publications biomédicales. Dans ce travail, nous cherchons à identifier les causes de cette différence de performance et proposons des solutions générales.MéthodesNous utilisons les propriétés de fermeture pour comparer la richesse du vocabulaire dans les textes de récits cliniques et dans les publications biomédicales. Nous appliquons des méthodologies d’apprentissage automatique à la fois à la tâche de NER et à celle de normalisation. Notre approche de NER repose sur des champs aléatoires conditionnels en chaîne linéaire (linear-chain CRF) enrichis par des fonctionnalités détaillées, et nous introduisons plusieurs améliorations visant à renforcer le savoir lexical du système. Notre méthode de normalisation – jamais auparavant appliquée aux données cliniques – utilise l’apprentissage par paires pour le classement (pairwise learning to rank), permettant d’apprendre automatiquement les variations terminologiques directement à partir des données d’entraînement.RésultatsNous constatons que, bien que la taille globale du vocabulaire soit similaire entre les récits cliniques et les publications biomédicales, les récits cliniques utilisent une terminologie plus riche pour décrire les troubles. Nous appliquons notre système, DNorm-C, à la localisation des mentions de troubles dans les récits cliniques issus de la dernière tâche ShARe/CLEF eHealth. Pour la tâche de NER (en strict span-only), notre système atteint une précision de 0,797, un rappel de 0,713 et un score F de 0,753. Pour la tâche de normalisation (strict span + concept), il obtient une précision de 0,712, un rappel de 0,637 et un score F de 0,672. Les améliorations décrites dans cet article augmentent le score F de la NER de 0,039 et celui de la normalisation de 0,036. Nous présentons également une version à haut rappel de la NER, qui permet d’atteindre un rappel de normalisation pouvant aller jusqu’à 0,744, au prix d’une légère diminution de la précision.DiscussionNous menons une analyse des erreurs, démontrant que les erreurs de NER surpassent celles de normalisation par plus de 4 à 1. Les abréviations et acronymes se révèlent être des causes fréquentes d’erreurs, ainsi que les mentions que les annotateurs n’ont pas pu identifier dans le cadre du vocabulaire contrôlé.ConclusionLes mentions de troubles dans les textes de récits cliniques s’appuient sur un vocabulaire riche, entraînant une forte variation terminologique, que nous considérons comme l’une des causes principales de la baisse de performance observée dans les récits cliniques. Nous montrons que l’apprentissage par paires pour le classement offre de hautes performances dans ce contexte, et introduisons plusieurs améliorations lexicales généralisables à d’autres tâches de NER clinique, renforçant ainsi la capacité du système à gérer cette variation. DNorm-C est un système performant, open source, dédié à la reconnaissance et à la normalisation des troubles dans les textes cliniques, et représente une avancée prometteuse vers des méthodes de NER et de normalisation entraînables sur une large variété de domaines et d’entités. (DNorm-C est un logiciel open source, disponible avec un modèle entraîné sur le site de démonstration DNorm : http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/tmTools/#DNorm.)