HyperAIHyperAI
vor 17 Tagen

Ontologiegestützte und schwach überwachte Identifizierung seltener Krankheiten aus klinischen Notizen

Hang Dong, Víctor Suárez-Paniagua, Huayu Zhang, Minhong Wang, Arlene Casey, Emma Davidson, Jiaoyan Chen, Beatrice Alex, William Whiteley, Honghan Wu
Ontologiegestützte und schwach überwachte Identifizierung seltener Krankheiten aus klinischen Notizen
Abstract

Die computergestützte Text-Phänotypisierung bezeichnet die Identifizierung von Patienten mit bestimmten Erkrankungen und Merkmalen anhand klinischer Notizen. Seltene Erkrankungen sind aufgrund der geringen Fallzahlen für maschinelles Lernen und des Bedarfs an Datenannotation durch Fachexperten besonders schwer zu erkennen. Wir stellen eine Methode vor, die Ontologien und Weak Supervision nutzt, kombiniert mit kürzlich entwickelten vortrainierten kontextuellen Darstellungen aus bidirektionalen Transformern (z. B. BERT). Der ontologiebasierte Ansatz umfasst zwei Schritte: (i) Text-zu-UMLS, bei dem Phänotypen durch kontextuelle Zuordnung von Erwähnungen zu Konzepten im Unified Medical Language System (UMLS) extrahiert werden, mithilfe eines Named Entity Recognition und Linking (NER+L)-Werkzeugs namens SemEHR sowie durch Weak Supervision mittels maßgeschneiderter Regeln und kontextueller Erwähnungsdarstellungen; (ii) UMLS-zu-ORDO, bei dem UMLS-Konzepte mit seltenen Erkrankungen aus der Orphanet Rare Disease Ontology (ORDO) abgeglichen werden. Der weakly supervised Ansatz wird vorgeschlagen, um ein Phänotypen-Validierungsmodell zu lernen, das die Text-zu-UMLS-Zuordnung verbessert, ohne dass annotierte Daten durch Fachexperten erforderlich sind. Wir haben den Ansatz an drei klinischen Datensätzen evaluiert: MIMIC-III-Entlassungsberichte, MIMIC-III-Röntgenberichte sowie Gehirnbildgebungsberichte aus dem NHS Tayside von zwei Institutionen in den USA und Großbritannien, die jeweils mit Annotationen versehen waren. Die Verbesserungen in der Präzision waren deutlich ausgeprägt (um über 30 % bis 50 % absolut für die Text-zu-UMLS-Zuordnung), wobei gegenüber dem etablierten NER+L-Tool SemEHR praktisch kein Rückgang der Recall-Rate zu verzeichnen war. Die Ergebnisse für Röntgenberichte aus MIMIC-III und NHS Tayside waren konsistent mit denen der Entlassungsberichte. Die gesamte Pipeline zur Verarbeitung klinischer Notizen kann Fälle seltener Erkrankungen extrahieren, die in strukturierten Daten (manuell zugewiesene ICD-Codes) in der Regel nicht erfasst werden. Wir diskutieren die Nützlichkeit des Weak-Supervision-Ansatzes und skizzieren zukünftige Forschungsrichtungen.

Ontologiegestützte und schwach überwachte Identifizierung seltener Krankheiten aus klinischen Notizen | Neueste Forschungsarbeiten | HyperAI