
摘要
否定是语言的一个重要特征,也是从文本中提取信息的主要组成部分。这一子任务在生物医学领域尤为重要。多年来,人们探索了多种方法来解决这个问题,包括基于规则的系统、机器学习分类器、条件随机场模型、卷积神经网络(CNNs)以及最近的双向长短期记忆网络(BiLSTMs)。本文探讨了将迁移学习应用于该问题的方法。首先,我们对近年来广受关注的三个数据集——BioScope语料库、Sherlock数据集和SFU评论语料库——中的否定检测和范围解析相关文献进行了广泛回顾。然后,我们研究了使用BERT这一流行的迁移学习模型进行此任务时所涉及的决策选择,并报告了在所有三个数据集上范围解析的最新结果。我们的模型称为NegBERT,在Sherlock数据集上的范围解析任务中达到了92.36%的标记级别F1分数,在BioScope摘要子语料库中达到了95.68%,在BioScope全文子语料库中达到了91.24%,在SFU评论语料库中达到了90.95%,显著优于之前的最先进系统。我们还分析了该模型对其未训练的数据集的泛化能力。