2달 전
MIMIC-Extract: MIMIC-III를 위한 데이터 추출, 전처리 및 표현 파이프라인
Shirly Wang; Matthew B. A. McDermott; Geeticka Chauhan; Michael C. Hughes; Tristan Naumann; Marzyeh Ghassemi

초록
강건한 머신러닝은 중요한 작업에 표준화된 프레임워크를 사용할 수 있는 데이터에 대한 접근성과 모델의 성능을 합리적으로 재현할 수 있는 능력에 의존합니다. 의료 분야의 머신러닝에서 커뮤니티는 공개적으로 접근 가능한 데이터 부족과 표준화된 데이터 처리 프레임워크 부족으로 인해 재현성 문제에 직면해 있습니다. 본 연구에서는 MIMIC-Extract, 공개 소스 파이프라인을 소개합니다. 이 파이프라인은 공개된 MIMIC-III 데이터베이스에 포함된 중환자실 환자의 원시 전자 의료 기록(EHR) 데이터를 일반적인 머신러닝 파이프라인에서 직접 사용할 수 있는 데이터프레임으로 변환합니다. MIMIC-Extract는 복잡한 의료 기록 데이터를 더 넓은 머신러닝 커뮤니티가 접근할 수 있도록 하는 세 가지 주요 과제를 해결합니다. 첫째, 단위 변환, 이상치 탐지, 의미적으로 동등한 특징들의 집계 등을 포함하는 표준화된 데이터 처리 함수를 제공하여 중복성을 고려하고 결측치를 줄입니다. 둘째, 임상 데이터의 시계열 특성을 유지하며, 건강 관련 머신러닝에서 임상적으로 행동 가능한 예측 작업에 쉽게 통합될 수 있습니다. 셋째, 매우 확장성이 높아 관련 질문을 가진 다른 연구자들이 같은 파이프라인을 쉽게 사용할 수 있습니다. 우리는 여러 벤치마크 작업과 기준 결과를 통해 이 파이프라인의 유용성을 입증합니다.