Automatische ICD-Codierung unter Ausnutzung der Diskursstruktur und vereinheitlichter Code-Embeddings

Die Internationale Klassifikation von Krankheiten (ICD) bildet die Grundlage für globale Gesundheitsstatistiken und Epidemiologie. Die ICD dient dazu, Gesundheitszustände in alphanumerische Codes zu übersetzen. Seit dem manuellen Kodierungsprozess zeitaufwändig ist und weltweit ein Mangel an Gesundheitsfachkräften besteht, wurden mehrere Ansätze für die automatische ICD-Kodierung vorgeschlagen. Bisherige Studien haben jedoch die Diskursstruktur klinischer Notizen nicht ausreichend genutzt, obwohl diese reichhaltige Kontextinformationen für die Codezuweisung liefert. In diesem Artikel erschließen wir die Diskursstruktur durch die Nutzung der Klassifikation von Abschnittstypen und Abschnittstyp-Embeddings. Zudem widmen wir uns dem Problem der Klassenungleichgewichts sowie den unterschiedlichen Schreibstilen zwischen klinischen Notizen und ICD-Code-Definitionen. Der vorgeschlagene vereinheitlichte Embedding-Ansatz ist in der Lage, beide Herausforderungen gleichzeitig zu bewältigen. Experimentelle Ergebnisse auf dem MIMIC-Datensatz zeigen, dass unser Modell alle vorherigen State-of-the-Art-Modelle deutlich übertrifft. Der Quellcode ist unter https://github.com/discnet2022/discnet verfügbar.