基于本体驱动与弱监督的临床笔记中罕见病识别

计算文本表型识别(Computational Text Phenotyping)是指从临床病历文本中识别出具有特定疾病或特征的患者。由于罕见病病例数量稀少,难以支持机器学习模型的训练,且需要领域专家进行数据标注,因此其识别面临较大挑战。为此,本文提出一种结合本体(ontology)与弱监督(weak supervision)策略的方法,并利用基于双向Transformer的预训练上下文表示模型(如BERT)进行表型提取。该基于本体的框架包含两个关键步骤:(i)文本到UMLS:通过上下文关联的方式,将临床文本中的提及项(mentions)映射到统一医学语言系统(UMLS)中的概念,采用名为SemEHR的命名实体识别与链接(NER+L)工具,并结合自定义规则和上下文提及表示实现弱监督;(ii)UMLS到ORDO:将UMLS中的概念匹配至Orphanet罕见病本体(ORDO)中的罕见病条目。本文提出的弱监督方法旨在无需领域专家标注数据的情况下,训练一个表型确认模型,从而提升“文本到UMLS”链接的准确性。我们在三个临床数据集上对该方法进行了评估:美国MIMIC-III数据库的出院小结、MIMIC-III的放射科报告,以及英国NHS Tayside机构的脑部影像报告,所有数据均配有专家标注。实验结果表明,与现有NER+L工具SemEHR相比,该方法在“文本到UMLS”链接任务中的精确率显著提升(绝对提升超过30%至50%),同时召回率几乎未受影响。在MIMIC-III和NHS Tayside的放射科报告上,结果与出院小结一致,显示出良好的泛化能力。整体流程可有效处理临床文本,识别出大量在结构化数据中未被记录的罕见病病例(即未通过人工编码的ICD代码标注的病例)。本文进一步讨论了弱监督策略在减少人工标注依赖方面的实用价值,并为未来研究方向提出了建议。