2 个月前

MIMIC-III 和 MIMIC-IV 上的自动化医学编码:一项关键性综述和可重复性研究

Joakim Edin; Alexander Junge; Jakob D. Havtorn; Lasse Borgholt; Maria Maistro; Tuukka Ruotsalo; Lars Maaløe
MIMIC-III 和 MIMIC-IV 上的自动化医学编码:一项关键性综述和可重复性研究
摘要

医疗编码是指将医学代码分配给临床自由文本记录的任务。医疗保健专业人员手动分配这些代码以跟踪患者的诊断和治疗情况。自动化的医疗编码可以显著减轻这一行政负担。在本文中,我们重现、比较并分析了最先进的自动化医疗编码机器学习模型。研究结果表明,由于配置较弱、训练测试集划分不当以及评估不足,多个模型的表现不佳。此前的工作中,宏F1分数计算不够理想,而我们的修正将其翻倍。我们贡献了一个修订后的模型对比方法,采用了分层抽样和相同的实验设置,包括超参数和决策边界调整。通过对预测错误的分析,我们验证并推翻了先前工作的假设。分析确认所有模型在处理罕见代码时都存在困难,而长文档的影响则微乎其微。最后,我们首次全面展示了使用重现模型对新发布的MIMIC-IV数据集的结果。为了便于未来的公平比较,我们发布了我们的代码、模型参数以及新的MIMIC-III和MIMIC-IV训练和评估流程。