Tiefere klinische Dokumentenverstehens durch Relationsextraktion

Die zunehmende Menge an biomedizinischer Literatur und digitalen klinischen Datensätzen stellt eine wachsende Notwendigkeit für Textmining-Techniken dar, die nicht nur Entitäten, sondern auch semantische Beziehungen zwischen diesen in unstrukturierten Daten identifizieren können. In diesem Paper stellen wir einen Textmining-Framework vor, der aus Named Entity Recognition (NER) und Relation Extraction (RE) Modellen besteht und sich gegenüber früheren Arbeiten in drei zentralen Aspekten weiterentwickelt. Erstens führen wir zwei neue RE-Modellarchitekturen ein – eine auf Genauigkeit optimierte Variante basierend auf BioBERT und eine auf Geschwindigkeit optimierte Variante, die handgefertigte Merkmale in einem Fully Connected Neural Network (FCNN) nutzt. Zweitens evaluieren wir beide Modelle an öffentlichen Benchmark-Datensätzen und erzielen neuartige State-of-the-Art-F1-Scores für die i2b2 Clinical Temporal Relations Challenge 2012 (F1 von 73,6, +1,2% gegenüber dem vorherigen SOTA), die i2b2 Clinical Relations Challenge 2010 (F1 von 69,1, +1,2%), die Phenotype-Gene Relations-Datensammlung 2019 (F1 von 87,9, +8,5%), die Adverse Drug Events Drug-Reaction-Datensammlung 2012 (F1 von 90,0, +6,3%) sowie die n2c2 Posology Relations-Datensammlung 2018 (F1 von 96,7, +0,6%). Drittens zeigen wir zwei praktische Anwendungen dieses Frameworks – zur Erstellung eines biomedizinischen Wissensgraphen und zur Verbesserung der Genauigkeit der Zuordnung von Entitäten zu klinischen Codes. Das System basiert auf der Spark NLP-Bibliothek, die ein produktionsreifes, natively skalierbares, hardware-optimiertes, trainierbares und anpassbares NLP-Framework bietet.