Extraction à grande échelle des réactions indésirables aux médicaments à partir de supports non structurés

Les réactions indésirables aux médicaments (RIM) ou événements indésirables liés aux médicaments (EIM) ont un impact majeur sur la santé des patients ainsi que sur les coûts des soins de santé. Détecter ces RIM dès que possible et les partager auprès des autorités régulatoires, des entreprises pharmaceutiques et des prestataires de soins de santé peut prévenir des morbidités et sauver de nombreuses vies. Bien que la plupart des RIM ne soient pas signalées par voie formelle, elles sont fréquemment mentionnées dans diverses conversations non structurées, telles que des publications sur les réseaux sociaux par des patients, des transcriptions d’appels vers les services d’assistance client ou des notes CRM issues de réunions entre professionnels de santé et représentants commerciaux de l’industrie pharmaceutique. Dans cet article, nous proposons une solution de traitement du langage naturel (NLP) permettant de détecter les RIM dans de telles conversations libres non structurées, offrant une amélioration par rapport aux travaux antérieurs sur trois aspects. Premièrement, un nouveau modèle de reconnaissance d’entités nommées (NER) atteint de nouveaux records d’exactitude pour l’extraction d’entités RIM et médicaments sur les jeux de données de référence ADE, CADEC et SMM4H (scores F1 respectifs de 91,75 %, 78,76 % et 83,41 %). Deuxièmement, deux nouveaux modèles d’extraction de relations (RE) sont introduits — l’un basé sur BioBERT, l’autre exploitant des caractéristiques spécifiquement conçues avec un réseau de neurones entièrement connecté (FCNN) — qui se montrent performants au niveau des états de l’art existants, et surpassent ces derniers lorsqu’ils sont entraînés avec un jeu de données supplémentaire annoté par des cliniciens. Troisièmement, un nouveau modèle de classification de texte, destiné à déterminer si une conversation contient une RIM, obtient un nouveau record d’exactitude sur le jeu de données CADEC (score F1 de 86,69 %). La solution complète est implémentée sous la forme d’un pipeline NLP unifié dans une bibliothèque de production construite sur Apache Spark, offrant ainsi une scalabilité native et la capacité de traiter des millions d’enregistrements par lots ou en flux continu sur des clusters à composants standards.