
摘要
日益增长的生物医学文献与数字化临床记录,对文本挖掘技术提出了更高要求:不仅需要识别实体,还需在非结构化数据中实现语义层面的实体关联。本文提出了一种融合命名实体识别(Named Entity Recognition, NER)与关系抽取(Relation Extraction, RE)的文本挖掘框架,并在前期研究基础上实现了三大创新。首先,我们提出了两种新型RE模型架构:一种基于BioBERT的高精度优化模型,另一种则采用人工设计特征的全连接神经网络(Fully Connected Neural Network, FCNN)实现速度优化。其次,我们在多个公开基准数据集上对两种模型进行了评估,取得了多项新的最先进(SOTA)性能表现:在2012年i2b2临床时间关系挑战赛中,F1得分为73.6,较前序SOTA提升1.2%;在2010年i2b2临床关系挑战赛中,F1得分为69.1,提升1.2%;在2019年表型-基因关系数据集上,F1得分为87.9,提升8.5%;在2012年不良药物事件-药物反应数据集上,F1得分为90.0,提升6.3%;在2018年n2c2剂量学关系数据集上,F1得分为96.7,提升0.6%。第三,我们展示了该框架的两项实际应用:构建生物医学知识图谱,以及提升实体映射至临床编码的准确性。系统基于Spark NLP库构建,该库提供了一个生产级、原生可扩展、硬件优化、可训练且可调优的自然语言处理框架。