18 天前

利用话语结构与一致化编码嵌入的自动ICD编码

{Wanchun Yang, Bo Sang, Fuxin Zhang, Bozheng Zhang, Shurui Zhang}
利用话语结构与一致化编码嵌入的自动ICD编码
摘要

国际疾病分类(ICD)是全球健康统计与流行病学的基石,其作用是将各类健康状况转化为字母数字编码。由于人工编码工作繁重,且全球范围内医疗人员短缺,已有多种自动ICD编码方法被提出。然而,现有研究未能充分挖掘临床病历文本中的语篇结构信息,而这些信息对于准确分配编码具有丰富的上下文意义。本文通过引入章节类型分类与章节类型嵌入(section type embeddings),有效利用了临床文本的语篇结构。同时,针对类别不平衡问题以及临床病历与ICD编码定义之间写作风格异质性的挑战,本文提出了一种融合嵌入(reconciled embedding)方法,能够同时应对上述问题。在MIMIC数据集上的实验结果表明,所提模型显著优于以往所有最先进的方法。相关源代码已开源,地址为:https://github.com/discnet2022/discnet