17일 전

다중 레이블 임상 문서 분류를 위한 효과적인 컨볼루션 어텐션 네트워크

{Thomas Schaaf, Matthew R. Gormley, Russell Klopfer, Hua Cheng, Yang Liu}
다중 레이블 임상 문서 분류를 위한 효과적인 컨볼루션 어텐션 네트워크
초록

다중 레이블 문서 분류(Multi-label document classification, MLDC) 문제는 특히 긴 문서와 큰 레이블 집합, 그리고 레이블의 긴 꼬리 분포(long-tail distribution)를 가진 경우 도전적이다. 본 논문에서는 임상 문서에서 의료 코드 예측을 중심으로 한 MLDC 문제에 효과적인 컨볼루션 어텐션 네트워크를 제안한다. 우리의 주요 기여는 세 가지이다: (1) 스퀴즈 앤 익시테이션(Squeeze-and-Excitation) 네트워크와 잔차 네트워크(Residual Networks)를 활용한 깊이 있는 컨볼루션 기반 인코더를 사용하여 문서 내 정보를 통합하고, 다양한 텍스트 범위를 포괄하는 의미 있는 문서 표현을 학습한다; (2) 다층 및 합산 풀링( sum-pooling) 어텐션을 탐색하여 다중 스케일 표현에서 가장 정보량이 큰 특징을 추출한다; (3) 이진 크로스 엔트로피 손실과 포컬 손실(Focal Loss)을 결합하여 희귀 레이블에 대한 성능을 향상시킨다. 평가 연구는 의료 분야에서 널리 사용되는 MIMIC-III 데이터셋에 집중한다. 제안하는 모델은 기존의 의료 코드 예측 연구를 모두 상회하며, 여러 지표에서 새로운 최고 성능(SOTA)을 달성하였다. 또한, 제안한 접근법이 언어 독립적임을 입증하기 위해 비영어 데이터셋 두 개에 적용한 결과, 기존 최고 성능 모델 및 다국어 트랜스포머 모델보다 상당한 성능 우위를 보였다.