2달 전

지식 주입 프롬프트 기반 다중 레이블 소수 샘플 ICD 코딩의 미세 조정

Zhichao Yang; Shufan Wang; Bhanu Pratap Singh Rawat; Avijit Mitra; Hong Yu
지식 주입 프롬프트 기반 다중 레이블 소수 샘플 ICD 코딩의 미세 조정
초록

자동 질병 국제 분류(ICD) 코딩은 평균 3,000개 이상의 토큰을 가진 의료 기록에 여러 ICD 코드를 할당하는 것을 목표로 합니다. 이 작업은 수만 개의 ICD 코드를 다루는 다중 라벨 할당의 고차원 공간과 장미 꼬리 문제(long-tail challenge)로 인해 어려움이 있습니다. 장미 꼬리 문제는 몇몇 코드(일반적인 질병)가 자주 할당되는 반면 대부분의 코드(희귀질병)가 거의 할당되지 않는 현상을 의미합니다. 본 연구에서는 소수 샷(few-shot) 환경에서 효과적이었던 것으로 알려진 라벨 의미를 활용한 프롬프트 기반 미세 조정(prompt-based fine-tuning) 기술을 적용하여 장미 꼬리 문제를 해결하고자 합니다. 의학 영역에서 성능을 더욱 향상시키기 위해, 계층 구조(hierarchy), 동의어(synonym), 약어(abbreviation)라는 세 가지 영역 특화 지식을 주입한 대비 학습(contrastive learning)을 사용한 사전 학습으로 지식 강화된 Longformer 모델을 제안합니다. MIMIC-III-full, 즉 코드 할당 벤치마크 데이터셋에서 수행한 실험 결과, 제안된 방법이 기존 최신 방법보다 마코 F1(macro F1) 점수가 14.5% 향상되었으며, 10.3에서 11.8로(P<0.001) 개선되었습니다. 소수 샷 환경에서 모델을 추가로 테스트하기 위해, 우리는 새로운 희귀질병 코딩 데이터셋인 MIMIC-III-rare50를 생성하였으며, 이 데이터셋에서 제안된 모델은 기존 방법 대비 마코 F1 점수를 17.1에서 30.4로, 마이크로 F1(micro F1) 점수를 17.2에서 32.6로 개선했습니다.