
摘要
生物医学关系陈述通常由多个句子组成,并包含许多概念,如基因、疾病、化学物质和突变。为了从生物医学文献中自动提取信息,现有的生物医学文本挖掘方法通常将问题表述为跨句n元关系抽取任务,该任务检测多个句子中n个实体之间的关系,并采用图神经网络(GNN)结合长短时记忆网络(LSTM)或注意力机制。最近,Transformer在许多自然语言处理(NLP)任务上表现出优于LSTM的性能。在这项工作中,我们提出了一种新颖的架构,即结合了双向编码器表示的Transformers与图Transformer(BERT-GT),通过在BERT架构中集成邻居注意力机制实现。与原始Transformer架构利用整个句子(或多个句子)来计算当前标记的注意力不同,我们的方法中的邻居注意力机制仅利用其邻近标记来计算注意力。因此,每个标记可以关注其邻近信息而受到较少的噪声干扰。我们证明了这一点在文本非常长的情况下尤为重要,例如在跨句或摘要级别的关系抽取任务中。我们的基准测试结果显示,在n元关系数据集和化学-蛋白质关系数据集上,BERT-GT相比现有最佳方法分别提高了5.44%的准确率和3.89%的F1值,表明BERT-GT是一种稳健的方法,适用于其他生物医学关系抽取任务或数据集。