Extraktion von unerwünschten Arzneimittelwirkungen aus unstrukturierten Medien im großen Maßstab

Schädliche Arzneimittelwirkungen / -ereignisse (ADR/ADE) haben erhebliche Auswirkungen auf die Gesundheit der Patienten und die Gesundheitskosten. Die möglichst frühe Erkennung von ADRs und deren Weitergabe an Aufsichtsbehörden, Pharmakonzern und Gesundheitsdienstleister kann Morbidität verhindern und viele Leben retten. Während die meisten ADRs über formelle Kanäle nicht gemeldet werden, finden sie häufig in einer Vielzahl unstrukturierter Gespräche ihren Niederschlag – beispielsweise in sozialen Medien-Beiträgen von Patienten, Transkripten von Kundenservice-Anrufen oder CRM-Notizen zu Treffen zwischen medizinischen Fachkräften und Pharma-Außendienstmitarbeitern. In diesem Artikel präsentieren wir eine Lösung basierend auf Natural Language Processing (NLP), die ADRs in solchen unstrukturierten Freitext-Kommunikationen erkennt und dabei gegenüber früheren Ansätzen in drei Aspekten Fortschritte erzielt: Erstens erreicht ein neu entwickeltes Named Entity Recognition (NER)-Modell neue State-of-the-Art-Genauigkeiten bei der Extraktion von ADR- und Arzneimittel-Entitäten auf den Benchmark-Datensätzen ADE, CADEC und SMM4H (F1-Scores von jeweils 91,75 %, 78,76 % und 83,41 %). Zweitens werden zwei neue Relation Extraction (RE)-Modelle vorgestellt – eines basierend auf BioBERT, das andere auf einer Fully Connected Neural Network (FCNN)-Architektur mit handgefertigten Merkmalen –, die sich mit bestehenden State-of-the-Art-Modellen messen können und bei Verwendung eines zusätzlichen, von Klinikern annotierten RE-Datensatzes sogar deren Leistung übertreffen. Drittens erreicht ein neues Text-Klassifizierungsmodell zur Entscheidung, ob ein Gespräch eine ADR enthält, auf dem CADEC-Datensatz neue State-of-the-Art-Genauigkeiten (F1-Score: 86,69 %). Die vollständige Lösung wird als integrierter NLP-Pipeline in einer produktionsreifen Bibliothek implementiert, die auf Apache Spark aufbaut und somit nativ skalierbar ist und die Verarbeitung von Millionen von Batch- oder Streaming-Datensätzen auf Standard-Cluster-Infrastrukturen ermöglicht.