
摘要
在新冠疫情全球大流行之后,研究该病毒的科学论文数量大幅增加,从而引发了对自动化文献综述的兴趣。本文介绍了一种临床文本挖掘系统,该系统在三个方面改进了以往的努力。首先,它能够识别超过100种不同的实体类型,包括健康的社会决定因素、解剖学、风险因素和不良事件等,以及其他常用的临床和生物医学实体。其次,文本处理流程中包含了断言状态检测功能,以区分存在、不存在、条件性或涉及患者以外其他人的临床事实。第三,所使用的深度学习模型比以前的更为准确,利用了最先进的预训练命名实体识别模型集成管道,并在断言状态检测方面超越了此前的最佳基准。我们通过从新冠开放研究数据集(CORD-19)中提取趋势和见解来说明系统的应用,例如最常见的疾病和症状、最普遍的生命体征和心电图结果等。该系统基于Spark NLP库构建,该库原生支持扩展至分布式集群,充分利用GPU资源,并提供可配置和可复用的NLP管道、医疗保健专用嵌入向量以及无需代码更改即可训练模型以支持新实体类型或人类语言的能力。