Mimic-IV-ICD: Ein neuer Benchmark für eXtreme MultiLabel-Klassifikation

Klinische Bemerkungen werden mit ICD-Codes versehen – Codesets für Diagnosen und Eingriffe. In den letzten Jahren wurden prädiktive maschinelle Lernmodelle für die automatische ICD-Codierung entwickelt. Doch es fehlt an allgemein akzeptierten Benchmarks für automatisierte ICD-Codierungsmodelle, die auf großskaligen öffentlichen EHR-Daten basieren.In diesem Artikel wird ein öffentlich zugängliches Benchmark-Suite für die ICD-10-Codierung vorgestellt, die auf einem umfangreichen EHR-Datensatz basiert, der aus MIMIC-IV, dem neuesten öffentlichen EHR-Datensatz, abgeleitet wurde. Wir implementieren und vergleichen mehrere gängige Ansätze für Aufgaben der ICD-Codierungsvorhersage, um die Datenbereinigung zu standardisieren und ein umfassendes Benchmark-Datenset für die ICD-Codierung zu etablieren. Dieser Ansatz fördert Reproduzierbarkeit und Modellvergleich und beschleunigt den Fortschritt bei der Anwendung automatisierter ICD-Codierung in zukünftigen Studien. Zudem erstellen wir ein neues ICD-9-Benchmark-Datenset unter Verwendung von MIMIC-IV-Daten, das mehr Datensätze und eine größere Anzahl an ICD-Codes als MIMIC-III bietet. Unser Open-Source-Code ermöglicht einen einfachen Zugriff auf Schritte der Datenaufbereitung, die Erstellung von Benchmarks und die Replikation von Experimenten für Nutzer mit Zugriff auf MIMIC-IV. Er liefert wertvolle Einblicke, Anleitungen und Protokolle zur effizienten Entwicklung von ICD-Codierungsmodellen.