
摘要
与句子级关系抽取(RE)相比,文档级关系抽取面临新的挑战。一个文档通常包含多个实体对,而同一实体对在文档中可能多次出现,并与多个潜在关系相关联。本文提出两种新方法——自适应阈值(adaptive thresholding)和局部上下文池化(localized context pooling),以应对多标签与多实体问题。自适应阈值用可学习的、依赖于实体的阈值替代了先前方法中的全局阈值,用于多标签分类;局部上下文池化则直接利用预训练语言模型中的注意力机制,精准定位对关系判断具有价值的相关上下文信息。我们在三个文档级关系抽取基准数据集上进行了实验:DocRED,一个近期发布的大型关系抽取数据集,以及两个生物医学领域的数据集CDR和GDA。所提出的ATLOP(Adaptive Thresholding and Localized cOntext Pooling)模型在测试中取得了63.4的F1分数,并在CDR和GDA两个数据集上显著优于现有模型。