
摘要
预训练语言模型在众多自然语言处理任务中取得了显著成功。许多研究致力于将知识融入语言模型之中。在生物医学领域,专家们经过数十年的努力构建了大规模的知识库。例如,统一医学语言系统(Unified Medical Language System, UMLS)包含数百万个实体及其同义词,并定义了实体之间的数百种关系。利用此类知识可有效提升多种下游任务的性能,如命名实体识别(Named Entity Recognition, NER)和关系抽取(Relation Extraction)。为此,我们提出KeBioLM——一种显式利用UMLS知识库的生物医学预训练语言模型。具体而言,我们从PubMed摘要中提取实体,并将其与UMLS进行链接。随后,我们训练一种具备知识感知能力的语言模型:该模型首先通过仅文本编码层学习实体表示,再通过文本-实体融合编码层整合实体信息。此外,我们引入了两项新的训练目标:实体检测与实体链接。在BLURB基准数据集上的命名实体识别与关系抽取实验结果表明,所提方法具有显著有效性。进一步在自建探测数据集上的分析显示,我们的模型在建模医学知识方面表现出更强的能力。