12 天前

基于机器学习的临床信息抽取三阶段解决方案:i2b2 2010 年最新研究进展

{Svetlana Kiritchenko, Xiaodan Zhu, Joel Martin, Berry de Bruijn, Colin Cherry}
摘要

目标:随着临床文本挖掘技术的不断成熟,其作为推动患者护理与临床研究创新的关键技术潜力正逐步成为现实。该进程中的关键环节在于,对自然语言处理方法在真实临床叙述数据上进行严格的基准测试。本文中,作者介绍了加拿大国家研究理事会(National Research Council of Canada)开发的三项前沿文本挖掘应用系统,在2010年i2b2挑战赛中的设计与性能表现。设计:这三个系统完成了临床信息抽取中的三个核心步骤:(1)从出院摘要和病程记录中提取医疗问题、检查项目及治疗措施;(2)对医疗问题所作陈述的语义断言进行分类;(3)对医疗概念之间的语义关系进行分类。这些任务由机器学习系统完成,其特征向量基于文本自身内容以及外部知识源(包括UMLS、cTAKES和Medline)构建,形成高维特征集合。测量方法:各子任务的性能通过微平均F值(micro-averaged F-scores)进行评估,该指标通过将系统标注结果与测试集上的标准答案(ground-truth annotations)进行比对计算得出。结果:在所有参赛系统中,本研究的系统表现优异,具体F值如下:概念抽取任务得分为0.8523(排名第一);断言检测得分为0.9362(排名第一);关系检测得分为0.7313(排名第二)。结论:在所有任务中,我们发现引入广泛多样的特征是取得成功的关键因素。尤为重要的是,所选用的机器学习算法在特征设计上具有高度灵活性,使我们能够在不引发过拟合、且未遭遇计算资源瓶颈的前提下,有效整合大量特征,显著提升了系统性能。

基于机器学习的临床信息抽取三阶段解决方案:i2b2 2010 年最新研究进展 | 最新论文 | HyperAI超神经