
摘要
命名实体识别(Named Entity Recognition, NER)是生物医学文档信息提取中的基础任务。NER的一个显著优势在于其能够在文档上下文中保持对生物医学实体识别的一致性。尽管现有的文档级NER模型能够产生较为一致的预测结果,但仍未能完全满足实际需求。本文研究了实体内部的形容词和介词是否会导致标签一致性降低,从而引发预测不一致的问题。为此,我们提出了一种名为ConNER的新方法,通过增强修饰语(如形容词和介词)的标签依赖性,提升实体标签的一致性,从而实现更高的标签一致率。ConNER通过优化修饰语的初步标签,进一步改进生物医学实体的输出表示。我们在四个主流生物医学NER数据集上验证了该方法的有效性,尤其在两个数据集上取得了7.5%至8.6%的绝对F1分数提升。我们分析认为,ConNER在标签一致性本身较低的数据集上表现尤为显著。通过定性分析,我们展示了该方法如何促使NER模型生成更加一致的预测结果。相关代码与资源已公开,可访问 https://github.com/dmis-lab/ConNER/。