2 个月前

知识注入提示的多标签少样本ICD编码微调

Zhichao Yang; Shufan Wang; Bhanu Pratap Singh Rawat; Avijit Mitra; Hong Yu
知识注入提示的多标签少样本ICD编码微调
摘要

自动国际疾病分类(ICD)编码旨在为平均长度超过3000个标记的医疗记录分配多个ICD代码。这一任务具有挑战性,原因在于多标签分配的高维空间(数万个ICD代码)以及长尾问题:只有少数代码(常见疾病)被频繁分配,而大多数代码(罕见疾病)则很少被分配。本研究通过引入基于提示的微调技术并结合标签语义来应对长尾问题,该技术在少量样本设置下已被证明有效。为了进一步提升医学领域的性能,我们提出了一种知识增强型Longformer模型,通过注入三个特定领域的知识——层次结构、同义词和缩写,并利用对比学习进行额外预训练。在基准数据集MIMIC-III-full上的实验结果表明,我们提出的方法在宏F1指标上比现有最佳方法提高了14.5%(从10.3提高到11.8,P<0.001)。为进一步测试我们的模型在少量样本设置下的表现,我们创建了一个新的罕见疾病编码数据集MIMIC-III-rare50,在该数据集上,我们的模型将宏F1指标从17.1提高到30.4,微F1指标从17.2提高到32.6,相比现有方法有显著提升。