
초록
ICD 코딩은 의료 전문가(예: 임상의)가 작성한 임상/의료 기록에 국제질병분류 진단 코드를 할당하는 과정입니다. 이 과정은 많은 인적 자원을 필요로 하므로 비용이 많이 들고 오류가 발생하기 쉽습니다. 이러한 문제를 해결하기 위해, 머신 러닝이 자동 ICD 코딩에 활용되었습니다. 기존의 최신 모델들은 단일 또는 여러 고정된 윈도우 크기를 사용하는 컨벌루션 신경망(CNN)을 기반으로 했습니다. 그러나 임상 문서에서 ICD 코드와 관련된 텍스트 조각들의 길이와 상호 의존성이 크게 다르기 때문에, 가장 적합한 윈도우 크기를 결정하는 것이 어려웠습니다.본 논문에서는 이러한 문제를 해결할 수 있는 새로운 라벨 주의 모델을 제안합니다. 이 모델은 ICD 코드와 관련된 텍스트 조각들의 다양한 길이와 상호 의존성을 처리할 수 있습니다. 또한 대부분의 ICD 코드가 자주 사용되지 않아 극심한 데이터 불균형 문제가 발생하므로, 이를 해결하기 위해 코드 간 계층적 관계를 활용하여 라벨 주의 모델을 확장하는 계층적 공동 학습 메커니즘을 추가로 제안합니다. 제안된 라벨 주의 모델은 세 가지 벤치마크 MIMIC 데이터셋에서 새로운 최신 결과를 달성하였으며, 공동 학습 메커니즘은 드물게 사용되는 코드의 성능 개선에 도움을 주었습니다.