Biomedizinische Namensentitätserkennung im großen Maßstab

Die Named Entity Recognition (NER) ist eine weit verbreitete Aufgabe der Natürlichen Sprachverarbeitung und ein Baustein für Fragebeantwortung, Themenmodellierung, Informationsabruf usw. Im medizinischen Bereich spielt die NER eine entscheidende Rolle, indem sie sinnvolle Textabschnitte aus klinischen Notizen und Berichten extrahiert, die dann an nachgelagerte Aufgaben wie die Erkennung von Behauptungsstatus, Entitätserkennung, Relationsextraktion und Deidentifizierung weitergeleitet werden. Durch die Neuimplementierung einer Bi-LSTM-CNN-Char Deep Learning Architektur auf Basis von Apache Spark präsentieren wir ein einziges trainierbares NER-Modell, das neue Standartwerte auf sieben öffentlichen biomedizinischen Benchmarks erzielt, ohne schwere kontextuelle Einbettungen wie BERT zu verwenden. Dies beinhaltet Verbesserungen von BC4CHEMD auf 93,72% (4,1%-Zuwachs), Species800 auf 80,91% (4,6%-Zuwachs) und JNLPBA auf 81,29% (5,2%-Zuwachs). Zudem ist dieses Modell innerhalb einer produktionsreifen Codebasis als Teil der Open-Source-Bibliothek Spark NLP frei verfügbar; es kann in jedem Spark-Cluster für Training und Inferenz skaliert werden; es verfügt über GPU-Unterstützung und Bibliotheken für gängige Programmiersprachen wie Python, R, Scala und Java; und es kann ohne Codeänderungen erweitert werden, um andere menschliche Sprachen zu unterstützen.