17 天前
MASK:一种灵活的框架,用于促进临床文本的去标识化
Nikola Milosevic, Gangamma Kalappa, Hesam Dadafarin, Mahmoud Azimaee, Goran Nenadic

摘要
医疗健康记录与临床摘要中包含大量以文本形式存在的关键信息,这些信息对于推动治疗方案、药物研发及公共卫生研究具有重要意义。然而,由于这些信息通常包含患者、其家属或医务人员的个人隐私,因此绝大多数数据并未被共享。美国的HIPAA、加拿大的PHIPPA以及欧盟的GDPR等法规对这类信息的保护、处理与分发作出了严格规定。当数据经过去标识化处理,即个人身份信息被替换或删除后,便可安全地向科研界开放使用。本文提出一种名为MASK的软件工具包,专为实现医疗文本去标识化而设计。该软件采用当前先进的自然语言处理技术,首先进行命名实体识别(Named Entity Recognition, NER),随后对识别出的实体实施掩蔽(masking)或删除(redaction)操作。用户可根据需求选择不同的命名实体识别算法(目前已实现基于CRF的两种版本,以及结合预训练GLoVe和ELMo词嵌入的BiLSTM神经网络模型)和掩蔽策略(例如日期偏移、姓名/地点替换,或完全删除实体)。该工具旨在在保障隐私安全的前提下,促进医疗文本数据在科研领域的有效利用。