2달 전

읽기, 주의 집중, 그리고 코딩: 임상 기록을 통해 의료 코드 예측의 한계를 확장하는 기계 학습 방법

Byung-Hak Kim; Varun Ganapathi
읽기, 주의 집중, 그리고 코딩: 임상 기록을 통해 의료 코드 예측의 한계를 확장하는 기계 학습 방법
초록

임상 기록에서 의료 코드를 예측하는 것은 현재 의료 시스템 내 모든 의료 서비스 제공 기관에게 실용적이고 필수적인 요구사항입니다. 주석 작업을 자동화하면 오늘날 인간 코더가 소비하는 많은 시간과 과도한 노력을 절약할 수 있습니다. 그러나 가장 큰 문제는 비정형 자유 텍스트 임상 기록에서 수천 개의 고차원 코드 중 적절한 의료 코드를 직접 식별하는 것입니다. 지난 3년 동안, 합성곱 신경망(CNN)과 장단기 기억(LSTM) 네트워크를 활용하여 MIMIC-III 전체 라벨 입원 임상 기록 데이터셋의 가장 어려운 벤치마크를 해결하는 데 있어 큰 발전이 이루어졌습니다. 이러한 진보는 자동화된 머신 러닝(ML) 시스템이 인간 코더의 작업 성능과 얼마나 가까운지를 묻는 근본적인 질문을 제기합니다. 우리는 같은 부분 샘플링된 테스트 세트에서 인간 코더의 성능 기준을 평가했습니다. 또한, 의료 코드 할당 매핑을 학습하기 위한 '읽기, 주목하기, 코딩하기'(Read, Attend, and Code, RAC) 모델을 제시합니다. 합성곱 임베딩을 자기 주의(self-attention) 및 코드 제목 유도 주의(code-title guided attention) 모듈로 연결하고, 문장 순서 변경 기반 데이터 확장을 사용하며 확률적 가중치 평균 훈련을 결합하여 RAC는 새로운 최고 수준(SOTA)을 설정하였습니다. 이로 인해 현재 최고의 Macro-F1 성능보다 18.7% 크게 우월하며, 인간 수준의 코딩 기준을 초월하였습니다. 이 새로운 이정표는 머신이 인간 코더의 의료 코드 예측 성능과 동등해지는 완전 자율적인 의료 코딩(AMC)에 대한 의미 있는 단계를 표시합니다.