
摘要
命名实体识别(Named Entity Recognition, NER)是自然语言处理领域中广泛研究的任务之一。近年来,越来越多的研究关注嵌套命名实体识别(nested NER)。基于跨度(span-based)的方法将实体识别建模为跨度分类任务,能够自然地处理嵌套实体。然而,这类方法面临搜索空间过大以及实体间缺乏交互建模的问题。为解决上述挑战,本文提出一种新型的序列到集合(sequence-to-set)神经网络用于嵌套命名实体识别。与预先设定候选跨度的方法不同,我们引入一组可学习的固定向量,用于自动捕捉有价值跨度的模式。通过采用非自回归(non-autoregressive)解码器,模型可在单次前向传播中预测最终的实体集合,从而有效建模实体之间的依赖关系。相较于传统的序列到序列(sequence-to-sequence)方法,本模型更适合此类无序识别任务,因其对标签顺序不敏感。此外,我们设计了一种基于二分图匹配(bipartite matching)的损失函数,用于计算整体训练损失。实验结果表明,所提出的模型在三个主流嵌套NER数据集——ACE 2004、ACE 2005和KBP 2017上均取得了当前最优的性能。代码已开源,地址为:https://github.com/zqtan1024/sequence-to-set。