17 天前

基于本体与弱监督的临床笔记中的罕见病识别

Hang Dong, Víctor Suárez-Paniagua, Huayu Zhang, Minhong Wang, Emma Whitfield, Honghan Wu
基于本体与弱监督的临床笔记中的罕见病识别
摘要

由于罕见病病例数量稀少,且机器学习模型训练需要临床专家进行数据标注,因此利用自然语言处理(NLP)从临床病历文本中识别罕见病极具挑战性。为此,我们提出一种结合本体(ontology)与弱监督(weak supervision)的方法。该方法包含两个步骤:(i)Text-to-UMLS,即通过命名实体链接工具(如SemEHR)结合基于自定义规则和基于双向编码器表示的Transformer(BERT)上下文表征的弱监督策略,将文本中的医学术语指代链接至统一医学语言系统(UMLS)中的概念;(ii)UMLS-to-ORDO,即将UMLS中的概念匹配至Orphanet罕见病本体(ORDO)中的罕见病实体。以美国MIMIC-III重症监护病房出院摘要为案例研究,我们发现,在无需任何领域专家标注数据的前提下,通过弱监督可显著提升Text-to-UMLS环节的性能。分析结果表明,该整体处理流程能够有效识别出罕见病病例,而这些病例在医院入院记录中通常未被人工编码的ICD代码所捕获。

基于本体与弱监督的临床笔记中的罕见病识别 | 最新论文 | HyperAI超神经