2 个月前

一种基于标签注意力模型的临床文本ICD编码方法

Thanh Vu; Dat Quoc Nguyen; Anthony Nguyen
一种基于标签注意力模型的临床文本ICD编码方法
摘要

ICD编码是指将国际疾病分类诊断代码分配给由医疗专业人员(如临床医生)记录的临床/医疗笔记的过程。这一过程需要大量的人力资源,因此成本高昂且容易出错。为了解决这一问题,机器学习已被用于自动ICD编码。以往的最先进模型基于卷积神经网络,使用单个或多个固定窗口大小。然而,临床文本中与ICD代码相关的文本片段的长度和相互依赖关系差异显著,导致难以确定最佳窗口大小。在本文中,我们提出了一种新的标签注意力模型,用于自动ICD编码,该模型能够处理与ICD代码相关文本片段的各种长度及其相互依赖关系。此外,由于大多数ICD代码使用频率不高,导致数据极度不平衡的问题,我们还提出了一种分层联合学习机制,扩展了我们的标签注意力模型以应对这一问题,利用代码之间的层次关系。我们的标签注意力模型在三个基准MIMIC数据集上取得了最新的最先进结果,并且联合学习机制有助于提高不常用代码的性能。