지식 주입 프롬프트 기반 다중 레이블 소수 샘플 ICD 코딩의 미세 조정

자동 질병 국제 분류(ICD) 코딩은 평균 3,000개 이상의 토큰을 가진 의료 기록에 여러 ICD 코드를 할당하는 것을 목표로 합니다. 이 작업은 수만 개의 ICD 코드를 다루는 다중 라벨 할당의 고차원 공간과 장미 꼬리 문제(long-tail challenge)로 인해 어려움이 있습니다. 장미 꼬리 문제는 몇몇 코드(일반적인 질병)가 자주 할당되는 반면 대부분의 코드(희귀질병)가 거의 할당되지 않는 현상을 의미합니다. 본 연구에서는 소수 샷(few-shot) 환경에서 효과적이었던 것으로 알려진 라벨 의미를 활용한 프롬프트 기반 미세 조정(prompt-based fine-tuning) 기술을 적용하여 장미 꼬리 문제를 해결하고자 합니다. 의학 영역에서 성능을 더욱 향상시키기 위해, 계층 구조(hierarchy), 동의어(synonym), 약어(abbreviation)라는 세 가지 영역 특화 지식을 주입한 대비 학습(contrastive learning)을 사용한 사전 학습으로 지식 강화된 Longformer 모델을 제안합니다. MIMIC-III-full, 즉 코드 할당 벤치마크 데이터셋에서 수행한 실험 결과, 제안된 방법이 기존 최신 방법보다 마코 F1(macro F1) 점수가 14.5% 향상되었으며, 10.3에서 11.8로(P<0.001) 개선되었습니다. 소수 샷 환경에서 모델을 추가로 테스트하기 위해, 우리는 새로운 희귀질병 코딩 데이터셋인 MIMIC-III-rare50를 생성하였으며, 이 데이터셋에서 제안된 모델은 기존 방법 대비 마코 F1 점수를 17.1에서 30.4로, 마이크로 F1(micro F1) 점수를 17.2에서 32.6로 개선했습니다.