7 天前
Mimic-IV-ICD:面向极端多标签分类的新基准
Thanh-Tung Nguyen, Viktor Schlegel, Abhinav Kashyap, Stefan Winkler, Shao-Syuan Huang, Jie-Jyun Liu, Chih-Jen Lin

摘要
临床病历记录会被赋予ICD编码——即用于诊断和医疗操作的编码体系。近年来,研究人员已构建了多种基于预测性机器学习模型的自动化ICD编码方法。然而,目前尚缺乏基于大规模公开电子健康记录(EHR)数据的自动化ICD编码模型的广泛认可的基准测试体系。本文提出了一套基于MIMIC-IV这一最新公开EHR数据集的大型真实世界数据,用于构建公开的ICD-10编码基准测试套件。我们实现了多种主流的ICD编码预测方法,系统地比较了不同模型在标准化数据预处理流程下的表现,旨在建立一个全面、可复现的ICD编码基准数据集。该方法有效促进了研究结果的可复现性与模型间的公平比较,从而加速自动化ICD编码技术在后续研究中的应用进程。此外,我们还利用MIMIC-IV数据构建了一个新的ICD-9编码基准,其数据量更大、覆盖的ICD编码数量也显著多于MIMIC-III。我们开源了全部代码,为已获取MIMIC-IV数据的研究人员提供了便捷的数据处理流程、基准构建方法及实验复现支持,为高效开发ICD编码模型提供了实用的指导、方法论与标准化协议。