Herausforderungen in der klinischen natürlichen Sprachverarbeitung für die automatisierte Störungsnormalisierung
HintergrundDie Identifizierung zentraler Variablen wie Erkrankungen in klinischen Narrativen elektronischer Gesundheitsakten hat weite Anwendungen in der klinischen Praxis und der biomedizinischen Forschung. Frühere Studien haben gezeigt, dass die Leistung von Named Entity Recognition (NER) und Normalisierung (oder Grounding) von Erkrankungen in klinischen Narrativen geringer ist als in biomedizinischen Publikationen. In dieser Arbeit zielen wir darauf ab, die Ursache dieser Leistungsunterschiede zu identifizieren und allgemein anwendbare Lösungen vorzustellen.MethodenWir nutzen Abschlusseigenschaften (closure properties), um die Vokabularreichtum in klinischen Narrativen im Vergleich zu biomedizinischen Publikationen zu analysieren. Beide Aufgaben – Erkrankungs-NER und Normalisierung – werden mit maschinellen Lernmethoden angegangen. Unser NER-Ansatz basiert auf linearen Ketten-Conditional Random Fields mit einem umfassenden Merkmalsansatz, wobei mehrere Verbesserungen vorgenommen werden, um das lexikalische Wissen des Systems zu stärken. Unser Normalisierungsverfahren – bisher noch nicht auf klinische Daten angewandt – verwendet Pairwise Learning to Rank, um automatisch Termvariationen direkt aus den Trainingsdaten zu lernen.ErgebnisseWir stellen fest, dass obwohl die Gesamtgröße des Vokabulars zwischen klinischen Narrativen und biomedizinischen Publikationen ähnlich ist, klinische Narrative eine reichhaltigere Terminologie zur Beschreibung von Erkrankungen verwenden. Wir wenden unser System, DNorm-C, auf die Erkennung von Erkrankungsnennungen in klinischen Narrativen der jüngsten ShARe/CLEF eHealth-Aufgabe an. Für die NER-Aufgabe (strenger Span-only-Modus) erreicht unser System eine Genauigkeit von 0,797, eine Rückruffähigkeit von 0,713 und einen F1-Score von 0,753. Für die Normalisierungsaufgabe (strenger Span + Konzept) erzielt es eine Genauigkeit von 0,712, eine Rückruffähigkeit von 0,637 und einen F1-Score von 0,672. Die in diesem Artikel beschriebenen Verbesserungen erhöhen den NER-F1-Score um 0,039 und den Normalisierungs-F1-Score um 0,036. Zudem beschreiben wir eine Variante mit hoher Rückruffähigkeit für die NER, die die Normalisierungsrückruffähigkeit auf bis zu 0,744 steigern kann, allerdings mit einer reduzierten Genauigkeit.DiskussionWir führen eine Fehleranalyse durch und zeigen, dass NER-Fehler mehr als viermal so häufig auftreten wie Normalisierungsfehler. Abkürzungen und Akronyme erweisen sich als häufige Fehlerursachen, ebenso wie Erkrankungsnennungen, die die Annotatoren im Rahmen des kontrollierten Vokabulars nicht identifizieren konnten.SchlussfolgerungErkrankungsnennungen in klinischen Narrativen verwenden ein reichhaltiges Vokabular, was zu einer hohen Termvariation führt, die wir als eine der primären Ursachen für die geringere Leistung in klinischen Texten identifizieren. Wir zeigen, dass Pairwise Learning to Rank in diesem Kontext hohe Leistung erzielt, und stellen mehrere lexikalische Verbesserungen vor, die allgemein auf andere klinische NER-Aufgaben übertragbar sind und die Fähigkeit des NER-Systems zur Bewältigung dieser Variation signifikant verbessern. DNorm-C ist ein hochleistungsfähiges, quelloffenes System zur Erkennung und Normalisierung von Erkrankungen in klinischen Texten und stellt einen vielversprechenden Schritt hin zu NER- und Normalisierungsverfahren dar, die auf eine Vielzahl von Domänen und Entitäten trainierbar sind. (DNorm-C ist quelloffene Software und steht mit einem vortrainierten Modell auf der DNorm-Demonstrations-Website zur Verfügung: http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/tmTools/#DNorm.)