Lesen, beachten und codieren: Die Grenzen der Vorhersage medizinischer Codes aus klinischen Notizen durch Maschinen erweitern

Die Vorhersage medizinischer Codes aus klinischen Notizen ist sowohl praktisch als auch unerlässlich für jede Gesundheitsversorgungsorganisation innerhalb der aktuellen medizinischen Systeme. Die Automatisierung der Annotation wird erhebliche Zeit und Überanstrengung sparen, die heute von menschlichen Codierern aufgewendet werden. Der größte Herausforderung besteht jedoch darin, geeignete medizinische Codes direkt aus mehreren tausend hochdimensionalen Codes in unstrukturierten freien Texten von klinischen Notizen zu identifizieren. In den letzten drei Jahren haben sich mit Convolutional Neural Networks (CNN) und Long Short-Term Memory (LSTM)-Netzwerken erhebliche Fortschritte bei der Bewältigung des anspruchsvollsten Benchmarks des MIMIC-III-Volllabels-Datensatzes für stationäre klinische Notizen erzielt. Dieser Fortschritt wirft die grundlegende Frage auf, wie weit automatisierte maschinelle Lernsysteme (ML) vom Arbeitsleistungsniveau menschlicher Codierer entfernt sind. Wir haben das Leistungsverhalten menschlicher Codierer an demselben unterrepräsentierten Testdatensatz evaluiert. Darüber hinaus präsentieren wir unser Modell „Read, Attend, and Code“ (RAC) zur Lernforschung der Zuordnung von medizinischen Codes. Durch die Verknüpfung konvolutiver Einbettungen mit Selbst-Aufmerksamkeits- und titelgeführten Aufmerksamkeitsmodulen, kombiniert mit datenbasierten Erweiterungen durch Satzpermutation und stochastischem Gewichtsdurchschnittstraining, etabliert RAC einen neuen Stand der Technik (SOTA). Es übertrifft den aktuellen besten Makro-F1-Wert um 18,7 % und erreicht das Niveau menschlicher Codierer. Dieses neue Meilenstein markiert einen bedeutenden Schritt hin zu vollständig autonomen medizinischen Codiersystemen (AMC), die in der Vorhersage von medizinischen Codes gleichwertig mit menschlichen Codierern performen.