Wissensbasierte Prompt-gestützte Feinabstimmung für Multi-Label Few-Shot ICD-Codierung

Die automatische internationale Klassifikation von Krankheiten (ICD) zielt darauf ab, mehrere ICD-Codes einem medizinischen Bericht mit durchschnittlich über 3.000 Token zuzuordnen. Diese Aufgabe ist herausfordernd aufgrund des hochdimensionalen Raums der Mehrfachbeschriftung (zehntausende von ICD-Codes) und der Long-Tail-Herausforderung: Nur wenige Codes (für häufige Krankheiten) werden häufig zugewiesen, während die meisten Codes (für seltene Krankheiten) selten verwendet werden. In dieser Studie wird die Long-Tail-Herausforderung durch Anpassung einer promptbasierten Feinabstimmungstechnik mit Label-Semantik angegangen, die unter Few-Shot-Bedingungen als effektiv erwiesen hat. Um die Leistung im medizinischen Bereich weiter zu verbessern, schlagen wir einen wissensverstärkten Longformer vor, indem wir drei domänenspezifische Kenntnisse einbringen: Hierarchie, Synonyme und Abkürzungen, ergänzt durch eine kontrastive Vortrainierung. Experimente auf MIMIC-III-full, einem Benchmark-Datensatz für Codezuordnung, zeigen, dass unser vorgeschlagener Ansatz den bisherigen Stand der Technik um 14,5 % in der makro-F1-Score (von 10,3 auf 11,8, P<0,001) übertrifft. Um unser Modell unter Few-Shot-Bedingungen weiter zu testen, haben wir einen neuen Datensatz für seltene Krankheiten erstellt: MIMIC-III-rare50. Auf diesem Datensatz verbessert unser Modell den makro-F1-Score von 17,1 auf 30,4 und den mikro-F1-Score von 17,2 auf 32,6 im Vergleich zur bisherigen Methode.