17 天前

基于最短依存路径特征与三元组信息的Transformer模型在生物医学关系抽取中的应用

{Fabio Rinaldi, Vani Kanjirangat}
摘要

实体关系抽取在生物医学、医疗健康及临床研究领域中发挥着重要作用。近年来,基于Transformer架构及其变体的预训练模型在多种自然语言处理任务中表现出色。这些变体模型大多通过对架构组件、表示方式的微调,以及利用远程监督方法扩充数据来实现性能提升。然而,在远程监督方法中,一个主要挑战是剔除噪声样本。当训练样本无法直接获取,而需从给定数据集中构建时,类似问题同样会出现。BioCreative V 化学-疾病关系(CDR)任务所提供的数据集并未显式提供提及级别的黄金标注,因此恰好复现了上述情形。在这种背景下,从给定的摘要或文档文本中筛选出能够体现潜在实体关系的代表性句子,变得尤为关键。现有文献中的大多数方法通常选择整段文本或包含实体提及的所有句子作为输入,这种方法在计算上成本高昂且耗时。本文提出一种新颖方法,专门应对此类场景,特别是在生物医学关系抽取任务中。我们提出利用最短依存路径(Shortest Dependency Path, SDP)特征,通过去除噪声信息并选取最具代表性的样本,以构建训练数据。同时,我们在模型学习中引入三元组(triplet)信息,并采用生物医学领域优化的BERT变体——BioBERT。该任务被建模为句子对分类任务,输入包括句子本身以及实体-关系对。我们在CDR数据集上的内句关系(intra-sentential)与跨句关系(inter-sentential)两种情形下对该方法进行了系统分析。实验结果表明,结合SDP特征与三元组信息的所提方法在跨句关系抽取任务中表现尤为出色,展现出良好的性能。本文所用代码已公开发布于GitHub,供学术界参考与复现。