7일 전

Mimic-IV-ICD: eXtreme MultiLabel 분류를 위한 새로운 벤치마크

Thanh-Tung Nguyen, Viktor Schlegel, Abhinav Kashyap, Stefan Winkler, Shao-Syuan Huang, Jie-Jyun Liu, Chih-Jen Lin
Mimic-IV-ICD: eXtreme MultiLabel 분류를 위한 새로운 벤치마크
초록

임상 노트는 진단 및 절차에 대한 코드 집합인 ICD 코드에 할당된다. 최근 몇 년간 자동 ICD 코드 부여를 위한 예측 기계 학습 모델이 개발되어 왔으나, 대규모 공개 전자 건강 기록(EHR) 데이터를 기반으로 한 자동 ICD 코드 부여 모델에 대한 널리 인정받는 벤치마크는 여전히 부족한 실정이다.본 논문은 최신 공개 EHR 데이터셋인 MIMIC-IV에서 유도된 대규모 EHR 데이터셋을 활용하여 ICD-10 코드 부여를 위한 공개 벤치마크 세트를 제안한다. 우리는 여러 주요 ICD 코드 예측 방법을 구현하고 비교함으로써 데이터 전처리를 표준화하고, 포괄적인 ICD 코드 부여 벤치마크 데이터셋을 구축한다. 이러한 접근은 모델의 재현성과 비교 가능성을 높이며, 향후 연구에서 자동 ICD 코드 부여 기술의 활용을 가속화하는 데 기여한다. 또한 MIMIC-IV 데이터를 이용해 MIMIC-III보다 더 많은 데이터 포인트와 더 많은 ICD 코드를 포함하는 새로운 ICD-9 벤치마크를 구축하였다. 공개 소스 코드를 통해 MIMIC-IV에 접근 가능한 연구자들이 데이터 처리 단계, 벤치마크 생성, 실험 재현에 쉽게 접근할 수 있도록 하며, ICD 코드 부여 모델을 효율적으로 개발하기 위한 통찰력, 지침 및 프로토콜을 제공한다.

Mimic-IV-ICD: eXtreme MultiLabel 분류를 위한 새로운 벤치마크 | 최신 연구 논문 | HyperAI초신경