摘要
生物医学文献的数量庞大且持续快速增长,高效的文本挖掘技术有助于研究人员从海量文献中快速提取有用信息。然而,当前文本挖掘工具(如tmTool和ezTag)所采用的命名实体识别(Named Entity Recognition, NER)模型性能不足,难以准确识别新出现的实体。此外,传统文本挖掘工具通常不考虑实体之间的重叠现象,而这类重叠在多类型命名实体识别结果中十分常见。为此,我们提出了一种基于神经网络的生物医学命名实体识别与多类型归一化工具——BERN。BERN采用高性能的BioBERT命名实体识别模型,能够有效识别已知实体并发现新的实体。同时,该工具引入基于概率的决策规则,以准确判断重叠实体的类型。此外,BERN集成了多种命名实体归一化模型,可为每个识别出的实体分配唯一的标识符。BERN提供Web服务,支持对PubMed文章或原始文本中的实体进行标注。研究人员可利用BERN的Web服务开展各类文本挖掘任务,包括新实体发现、信息检索、问答系统以及关系抽取等。BERN的应用程序接口(API)及演示系统已公开发布,访问地址为:https://bern.korea.ac.kr