
摘要
药物不良反应/事件(ADR/ADE)对患者健康和医疗成本具有重大影响。尽早发现ADR并将其共享给监管机构、制药公司及医疗保健提供者,有助于预防疾病发生,挽救大量生命。尽管大多数ADR并未通过正式渠道报告,但它们常常被记录在各种非结构化对话中,例如患者发布的社交媒体内容、客户支持通话记录,或医疗专业人员与制药销售代表会议的客户关系管理(CRM)笔记。本文提出了一种自然语言处理(NLP)解决方案,用于从此类非结构化自由文本对话中检测ADR,相较于以往工作在三个方面实现了显著提升:第一,提出一种新型命名实体识别(NER)模型,在ADE、CADEC和SMM4H基准数据集上实现了当前最先进的准确率,分别达到91.75%、78.76%和83.41%的F1分数;第二,引入两种新型关系抽取(RE)模型——一种基于BioBERT架构,另一种则利用人工设计特征的全连接神经网络(FCNN)——其性能与现有最先进模型相当,并在使用额外由临床医生标注的RE数据集进行训练时表现更优;第三,提出一种新的文本分类模型,用于判断一段对话是否包含ADR,在CADEC数据集上取得了86.69%的F1分数,达到该任务的新SOTA(state-of-the-art)水平。整个解决方案被实现为一个统一的NLP处理流水线,构建于Apache Spark之上的生产级库中,具备原生可扩展性,能够在通用计算集群上高效处理数百万条批处理或流式数据记录。