17 天前

大规模精准的临床与生物医学命名实体识别

{David, Veysel; Talby, Kocaman}
摘要

我们提出了一种高效、适用于生产环境的临床与生物医学命名实体识别(Named Entity Recognition, NER)算法,该算法基于在 Apache Spark 平台之上构建的改进型 BiLSTM-CNN-Char 深度学习架构。本研究实现的 NER 模型在 8 个知名生物医学 NER 基准测试中的 7 个以及 3 个临床概念抽取挑战任务中达到了新的最先进(state-of-the-art)准确率,具体包括:2010 年 i2b2/VA 临床概念抽取、2014 年 n2c2 去标识化任务,以及 2018 年 n2c2 药物抽取任务。此外,使用该实现训练的临床 NER 模型在准确率上显著优于主流商业实体抽取解决方案——AWS Medical Comprehend 和 Google Cloud Healthcare API,分别高出 8.9% 和 6.7%,且无需依赖资源密集型的语言模型。