
摘要
生物医学研究正以指数级速度迅猛发展,导致科学家、研究人员及从业者难以应对该领域日益增长的文献数量。文献中所呈现的知识亟需系统化组织,以便于研究者能够便捷地发现、访问并验证相关主张与假设。知识图谱为从文献中实现语义知识的结构化表示提供了理想的框架。然而,构建知识图谱的前提是能够从文本中提取生物医学实体之间的关系,并对实体及关系类型进行标准化处理。本文系统比较了若干基于规则的方法以及机器学习方法(以朴素贝叶斯、随机森林为代表的传统机器学习方法,以及以DistilBERT、PubMedBERT、T5和SciFive为基础的现代深度学习Transformer模型)在可扩展关系抽取中的表现,并探讨其在知识图谱构建中的集成能力。我们进一步评估了这些方法在面对类别不平衡且样本量较小的数据集时的鲁棒性。实验结果表明,基于Transformer的模型在处理小样本数据(得益于在大规模语料上预训练)和不平衡数据方面均表现出色。其中,经平衡数据微调的PubMedBERT模型表现最佳,F1得分达到0.92;DistilBERT模型紧随其后,F1得分为0.89,且在推理速度和资源消耗方面更具优势。相比之下,基于BERT的模型在性能上优于基于T5的生成式模型。